Mise en place de méthodes computationnelles pour traiter des données de protéomiques «haut-débit »: application au démultiplexage de signaux de spectrométrie de masse

par Olga Permiakova

Projet de thèse en MBS - Modèles, méthodes et algorithmes en biologie, santé et environnement

Sous la direction de Thomas Burger (edisce).

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble) , en partenariat avec Biologie à grande echelle (laboratoire) et de EDyP (equipe de recherche) depuis le 07-10-2016 .


  • Résumé

    Contexte : Avec l'avènement des outils à haut débit d'analyse, de nombreux laboratoire de biologie se retrouvent confrontés à un déluge de données, dont le débit surpasse les capacités de traitement (problème du big data). Cela nécessite la mise en place d'algorithmes capable de passer à l'échelle (en termes de complexité, de parcimonie, et de stabilité numérique). Concrètement, de nombreux algorithmes classiques de débruitage, de projection (à des fins de visualisation), de partitionnement ou d'analyse statistique ne sont plus utilisables, et doivent être « réinventés » pour correspondre à ces nouveaux besoins. Objectifs : L'étudiant(e) recruté(e) devra participer à la mise en place d'un algorithme de factorisation de matrice sous contrainte de parcimonie, de complexité linéaire, tout en garantissant une stabilité numérique suffisante. Ensuite, l'étudiant inclura cet algorithme dans un pipe-line de séquençage de protéines (avec l'aide d'ingénieurs protéomiciens), au sein duquel il permettra de résoudre de manière optimale un problème de séparation de sources aveugle. En effet, dans ce pipe-line expérimental, plusieurs protéines peuvent être co-analysées simultanément via un spectromètre de masse, le spectrogramme résultant devenant inexploitable. Grâce au travail de l'étudiant(e), il sera possible de reconstruire à la volée les différents spectrogrammes des différentes protéines à partir du seul spectre «multiplexé» (jusqu'à 20 000 spectres sont produits par heures), améliorant considérablement la qualité et la couverture du séquençage. Au-delà de ce cas d'étude, notre objectif et d'amener l'étudiant(e) à devenir un(e) chercheur(se) autonome dans le développement de méthodes d'analyse « biological big data », un domaine de recherche clefs (pour le monde industriel comme académique) de la décennie à venir. Profil : Le sujet étant interdisciplinaire, nous considérons les candidatures d'origines variées. L'étudiant(e) devra être en dernière année de master ou d'école d'ingénieur dans l'un des domaines suivants: - Statistique (apprentissage automatique ou analyse de données) - Mathématiques appliquées (analyse numérique) - Physique (avec de bonnes compétences en algèbre linéaire) - Traitement du signal Une part importante du travail étant formelle, les candidats ayant suivi un cursus de biologie complété par une spécialisation en bioinformatique ou biostatistique ne seront pas considérées (aucune connaissance en protéomique ou en biologie n'est nécessaire pour candidater). Des compétences en programmation orientée objet, et un intérêt pour les applications biologiques ainsi que pour le travail interdisciplinaire sont nécessaires.

  • Titre traduit

    Scalable computational methods for big proteomics data: application to demultiplexing of mass spectrometry signals


  • Résumé

    Background: With the advent of high-throughput sequencing methods, many laboratories in biology are confronted to a deluge of data that outpaces the processing capabilities. As a result, there is an urgent need for the development of algorithms scaling up to this big data context (in terms of complexity, sparsity and numerical stability). Specifically, many conventional algorithms used for denoising, projection (i.e. visualization), clustering, or more generally, statistical analysis, are no longer usable and must be "reinvented" to adapt to these large scale data. Objectives: The PhD student shall participate in the establishment of a sparse matrix-factorization algorithm of linear complexity and of high numerical stability. Then, the student will include this algorithm in a protein sequencing pipeline (with the help of proteomics engineers), in which it will optimally solve a blind-signal-separation problem. Indeed, in the present experimental pipeline, many proteins may be co-analyzed simultaneously via a mass spectrometer, the resulting spectrogram becoming unusable. Through the work of the student, it will be possible to reconstruct on-the-fly (up to 20,000 spectrograms per hour are produced) the various spectrograms of different proteins from a single "multiplexed" spectrum. Consequently, the quality and coverage of protein sequencing will be significantly improved. Beyond this case study, our objective is to help the student becoming an autonomous researcher in the field of statistical and computational methods for high-throughput sequencing biology, a key academic or industrial research field for the next decade