Thèse soutenue

Conceptualisation et exploitation d’un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes

FR  |  
EN
Auteur / Autrice : Guillaume Gautreau
Direction : Claudine MédigueDavid Vallenet
Type : Thèse de doctorat
Discipline(s) : Sciences de la vie et de la santé
Date : Soutenance le 27/02/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Génomique métabolique (Evry, Essonne ; 2000-....) - Structure et évolution des génomes / SEG
référent : Université d'Évry-Val-d'Essonne (1991-....)
Jury : Président / Présidente : Sophie Schbath
Examinateurs / Examinatrices : Philippe Lopez, Éric Rivals, Claire Lemaitre, Laurent Jacob
Rapporteurs / Rapporteuses : Philippe Lopez, Éric Rivals

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Introduites en microbiologie en 2005, les approches pangénomiques visent à compiler l'ensemble de la diversité génomique d'une espèce. Dans ces études, on distingue généralement à l'intérieur du pangénome, le génome coeur, c'est-à-dire l'ensemble des familles de gènes où les représentants géniques sont présents dans tous les organismes; et d'autre part, le génome accessoire qui correspond aux gènes spécifiques à certains organismes seulement. Cependant, on constate que le concept de génome coeur est limitant avec un nombre important d'organismes car des gènes bien que fonctionnellement indispensables peuvent être absents de certains génomes. Pour limiter ce phénomène la quasi-totalité des études utilisent un seuil arbitraire de présence (généralement 95%) pour définir un génome coeur assoupli. De plus, cette dichotomie entre le génome coeur et accessoire ne rend pas compte des nombreuses gammes de fréquence d'apparition des gènes dans un pangénome. Ce travail de thèse a pour objectif de proposer une approche statistique basé sur un modèle mixé multivarié de Bernoulli couplé à un champ de Markov caché pour partitionner le pangénome afin d'être résilient aux absences de gènes et de mieux distinguer les différents schémas de présence/absence des gènes. En parallèle, plusieurs structures de données basées sur des graphes de pangénomes ont été développées ces dernières années. En effet, exploiter la totalité des informations disponibles dans un génome et non plus seulement la présence de gènes isolés est désormais crucial pour correctement rendre compte de l'organisation des génomes et notamment des régions de plasticité génomique dans les espèces. Cette approche se veut le chaînon manquant entre ces nouvelles approches graphiques à l'échelle de la séquence et les approches originelles en familles de gènes isolés. Pour y parvenir, ce travail de thèse s'intéresse donc à la définition, au partitionnement statistique et à l'exploitation d'un graphe d'un pangénome comme représentation compacte de la diversité du répertoire génomique des espèces procaryotes. Enfin, ce graphe est ensuite employé pour analyser la diversité pangénomique de 439 espèces procaryotes.