Thèse soutenue

Décrypter les données omiques : importance du contrôle qualité. Application au cancer de l'ovaire

FR  |  
EN
Auteur / Autrice : Laure Sambourg
Direction : Nicolas Thierry-Mieg
Type : Thèse de doctorat
Discipline(s) : Modèles, méthodes et algorithmes en biologie, santé et environnement
Date : Soutenance le 18/12/2013
Etablissement(s) : Grenoble
Ecole(s) doctorale(s) : École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Techniques de l’ingénierie médicale et de la complexité - Informatique, mathématiques et applications (Grenoble)
Jury : Président / Présidente : Olivier François
Examinateurs / Examinatrices : Daniel Khan
Rapporteurs / Rapporteuses : Christine Brun, Eric Rivals

Mots clés

FR  |  
EN

Mots clés libres

Résumé

FR  |  
EN

Décrypter les données omiques : importance du contrôle qualité. Application au cancer de l’ovaire Au cours des dix dernières années, la taille et la complexité des données biologiques ont littéralement explosé, et une attention particulière doit être portée au contrôle qualité. En effet, certaines données omiques (données génomiques et post-génomiques obtenues à haut débit) sont très incomplètes et/ou contiennent de nombreux biais et erreurs qu’il est facile de confondre avec de l’information biologiquement intéressante. Dans cette thèse, nous montrons que les interactions protéine-protéine issues de curation de la littérature et les interactions identifiées à haut débit sont beaucoup plus corrélées que ce qui est communément admis. Nous examinons l’interactome de la levure d’un point de vue original, en prenant en compte le degré d’étude des protéines par la communauté scientifique et nos résultats indiquent que cette corrélation s’estompe lorsqu’on se restreint aux protéines très étudiées. Ces observations nous permettent de proposer une méthode simple et fiable pour estimer la taille d’un interactome. Notre méthode conduit à une estimation d’au moins 37 600 interactions physiques directes chez S. cerevisiae, et montre que les évaluations précédentes sont trop faibles. Par ailleurs, nous étudions des données de séquençage nouvelle génération de l’ADN. Par une analyse des biais existant entre les short-reads alignés sur un brin ou sur l’autre du génome, nous mettons en évidence de nombreuses erreurs systématiques. De plus, nous observons de multiples positions présentant entre 20 et 40% de short-reads portant l’allèle variant : celles-ci ne peuvent pas être génotypées correctement. Nous proposons une méthode fiable pour appeler les génotypes à partir des données NGS qui permet de s’affranchir de ses difficultés. Enfin, nous appliquons cette méthode sur des données massives de séquençage d’exome de cellules saines et tumorales de 520 patientes atteintes du cancer de l’ovaire, produites par le consortium TCGA. Nous détectons en moyenne 30 632 variants germinaux par patiente. Parmi ces variants, nous identifions ceux les plus enclins à conférer un risque accru de développer la maladie : nous nous restreignons notamment aux variants induisant une perte de fonction de la protéine encodée et significativement plus présents chez les patientes que dans la population générale. Cela conduit à 44 SNVs par patiente en moyenne, répartis sur 334 gènes dans l’ensemble de la cohorte. Parmi ces 334 gènes, 42 ont été reportés comme impliqués dans la cancerogénèse, confirmant que la liste de candidats identifiés est fortement enrichie en gènes de susceptibilité au cancer de l’ovaire. En particulier, nos travaux confirment le rôle de suppresseur de tumeur de la protéine MAP3K8, très récemment proposée comme jouant un rôle clé dans d’autres cancers.