Méthodes statistiques pour le traitement des données de protéomique quantitative longitudinale

par Hélène Borges

Projet de thèse en MBS - Modèles, méthodes et algorithmes en biologie, santé et environnement

Sous la direction de Thomas Burger, Virginie Milena Brun et de Yohann Couté.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble) , en partenariat avec Biologie à grande echelle (laboratoire) et de EDyP (equipe de recherche) depuis le 30-11-2017 .


  • Résumé

    La protéomique est une technologie récente, dont l'objectif est l'identification et la quantification de l'ensemble des protéines présentes dans un échantillon biologique. Par opposition aux autres disciplines « omiques » telles que la génomique ou la transcriptomique, cette technologie permet d'avoir directement accès aux « briques élémentaires du vivant », les protéines, et permet donc une caractérisation sans équivalent d'un état biologique. Dans un contexte clinique, cette caractérisation a de plus l'avantage de la spécificité : contrairement au génome, qui permet une description invariante dans toutes les cellules du corps et tout au long de la vie par le biais des gènes, le protéome (i.e. l'ensemble des protéines) est dépendant du contexte environnemental (pollution, perturbateurs endocriniens, alimentation, etc.) et physiologique (l'état d'un patient). Malheureusement, les analyses protéomiques produisent des données dont l'exploitation statistique fiable dans un contexte clinique est une réelle difficulté, en raison des nombreuses imperfections de l'acquisition produite par une chaîne instrumentale extrêmement complexe. Les développements les plus récents permettent maintenant le traitement fiable de données issus d'analyses comparatives (binaires), mais un important travail reste nécessaire pour permettre une analyse temporelle (aussi appelée « analyse longitudinale »). Finalement, une telle méthodologie d'analyse est le dernier élément manquant pour permettre usage à grande échelle de la protéomique comme un outil fiable dans le contexte clinique du suivi au long cours de patients, pourtant absolument nécessaires pour la prise en charge des maladies chroniques (obésité, diabète, troubles cardiovasculaires…) Le doctorant recruté participera à développer une méthode statistique permettant d'isoler, parmi les milliers de protéines qui sont identifiés et quantifiés par les analyses protéomiques, les quelques-unes les plus à même de constituer de bons « biomarqueurs de suivi » ; c'est-à-dire des protéines dont la présence et à la variation d'abondance au cours du temps est un signe clinique claire qui pourra orienter le médecin et l'aider à ajuster le traitement du patient. Pour ce faire, le doctorant assemblera différents outils préexistants ou élaborés par lui-même qui permettront de prendre en compte à la fois les contraintes des protéomiciens et cliniciens (utilisateurs potentiels de cette méthode statistique) mais aussi de la spécificité des données de protéomiques : présence de valeurs manquantes, quantification peu fiable et relative, homologies entre certaines séquences protéiques difficilement distinguable durant l'analyse, variabilité intra- et inter-patient(s), multi-factorialité de la maladie et stratification des patients, etc. Enfin, au-delà de l'aspect « statistique en grande dimension », sous-jacent au problème classique de la sélection de biomarqueurs, le candidat appréhendera aussi le problème sous l'angle du « big data », avec les aspects computationnels qui y sont classiquement associés : prétraitements, visualisation et manipulation interactives des données, efficacité du calcul en temps et en mémoire, introduction de connaissances a priori, etc.

  • Titre traduit

    Statistical methods for the treatment of longitudinal data in quantitative proteomics


  • Résumé

    Proteomics is a recent technology whose objective is the identification and quantification of all the proteins present in a biological sample. In contrast to other 'omic' disciplines such as genomics or transcriptomics, this technology provides direct access to the 'elementary bricks of life', proteins, and thus allows unparalleled characterization of a biological state. In a clinical context, this characterization also has the advantage of specificity: unlike the genome, which allows an invariant description in all the cells of the body and throughout life through the genes, the proteome (ie the set of proteins) is dependent on the environmental context (pollution, endocrine disruptors, diet, etc.) and physiological (the state of a patient). Unfortunately, proteomic analyzes produce data whose reliable statistical exploitation in a clinical context is a real difficulty, because of the many imperfections of the acquisition produced by an extremely complex instrumental chain. The most recent developments now allow the reliable processing of data from comparative (binary) analyzes, but a great deal of work is still needed to allow temporal analysis (also called 'longitudinal analysis'). Finally, such an analysis methodology is the last missing element to allow large-scale use of proteomics as a reliable tool in the clinical context of long-term monitoring of patients, yet absolutely necessary for the management of chronic diseases ( obesity, diabetes, cardiovascular disorders ...) The recruited doctoral student will participate in developing a statistical method to isolate, among the thousands of proteins that are identified and quantified by proteomic analyzes, the few most likely to constitute good 'biomarkers of monitoring'; that is, proteins whose presence and variation in abundance over time is a clear clinical sign that can guide the physician and help adjust the patient's treatment. To do this, the PhD student will assemble various pre-existing or self-developed tools that will take into account both the constraints of proteomics and clinicians (potential users of this statistical method) but also the specificity of proteomic data: presence missing values, unreliable and relative quantification, homologies between some protein sequences difficult to distinguish during the analysis, intra- and inter-patient variability (s), multi-factoriality of the disease and stratification of patients, etc. Finally, beyond the 'large-scale statistical' aspect, which underlies the classic problem of biomarker selection, the candidate will also grasp the problem from the big data perspective, with the computational aspects are classically associated: preprocessing, visualization and interactive manipulation of data, efficiency of computation in time and memory, introduction of knowledge a priori, etc.