Bioinformatique et infertilité : analyse des données de séquençage haut-débit et caractérisation moléculaire du gène DPY19L2

par Thomas Karaouzene

Thèse de doctorat en MBS - Modèles, méthodes et algorithmes en biologie, santé et environnement

Sous la direction de Pierre Ray et de Nicolas Thierry-Mieg.

Le président du jury était Michael Mitchell.

Le jury était composé de Christel Thauvin, Julien Thevenon.

Les rapporteurs étaient Jacques Van Helden.


  • Résumé

    Ces dix dernières années, l’investigation des maladies génétiques a été bouleversée par l’émergence des techniques de séquençage haut-débit. Celles-ci permettent désormais de ne plus séquencer les gènes un par un, mais d’avoir accès à l’intégralité de la séquence génomique ou transcriptomique d’un individu. La difficulté devient alors d’identifier les variants causaux parmi une multitude d’artefacts techniques et de variants bénins, pour ensuite comprendre la physiopathologie des gènes identifiés.L’application du séquençage haut débit est particulièrement prometteuse dans le champ de la génétique de l’infertilité masculine car il s’agit d’une pathologie dont l’étiologie est souvent génétique, qui est génétiquement très hétérogène et pour laquelle peu de gènes ont été identifiés. Mon travail de thèse est donc centré sur la l’infertilité et comporte deux parties majeures : l’analyse des données issues du séquençage haut débit d’homme infertiles et de modèles animaux et la caractérisation moléculaire d’un phénotype spécifique d’infertilité, laglobozoospermie.Le nombre de variants identifiés dans le cadre d’un séquençage exomique pouvant s’élever à plusieurs dizaines de milliers, l’utilisation d’un outil informatique performant est indispensable. Pour arriver à une liste de variants suffisamment restreinte pour pouvoir être interprétée, plusieurs traitements sont nécessaires. Ainsi, j’ai développé un pipeline d’analyse de données issues de séquençage haut-débit effectuant de manière successive l’intégralité des étapes de l’analyse bio-informatique, c’est-à-dire l’alignement des reads sur un génome de référence, l’appel des génotypes, l’annotation des variants obtenus ainsi que le filtrage de ceux considérés comme non pertinents dans le contexte de l’analyse. L’ensemble de ces étapes étant interdépendantes,les réaliser au sein du même pipeline permet de mieux les calibrer pour ainsi réduire le nombre d’erreurs générées. Ce pipeline a été utilisé dans cinq études au sein du laboratoire, et a permis l’identification de variants impactant des gènes candidats prometteurs pouvant expliquer le phénotype d’infertilité des patients.L’ensemble des variants retenus ont ensuite pu être validés expérimentalement.J’ai également pris part aux investigations génétiques et moléculaires permettant la caractérisation du gène DPY19L2, identifié au laboratoire et dont la délétion homozygote entraine une globozoospermie, caractériséepar la présence dans l’éjaculât de spermatozoïdes à tête ronde dépourvus d’acrosome. Pour cela, j’ai contribué à caractériser les mécanismes responsables de cette délétion récurrente, puis, en utilisant le modèle murin Dpy19l2 knock out (KO) mimant le phénotype humain, j’ai réalisé une étude comparative des transcriptomes testiculaires de souris sauvages et de souris KO Dpy19l2-/-. Cette étude a ainsi permis de mettre en évidence la dérégulation de 76 gènes chez la souris KO. Parmi ceux-ci, 23 sont impliqués dans la liaison d’acides nucléiques et de protéines, pouvant ainsi expliquer les défauts d’ancrage de l’acrosome au noyau chez les spermatozoïdes globozoocéphales.Mon travail a donc permis de mieux comprendre la globozoospermie et de développer un pipeline d’analyse bioinformatique qui a déjà permis l’identification de plus de 15 gènes de la gamétogenèse humaine impliqués dans différents phénotypes d’infertilité.

  • Titre traduit

    Bioinformatics and infertility : high throughput sequencing data analysis and molecular characterization of DPY19L2 gene


  • Résumé

    In the last decade, the investigations of genetic diseases have been revolutionized by the rise of high throughput sequencing (HTS). Thanks to these new techniques it is now possible to analyze the totality of the coding sequences of an individual (exome sequencing) or even the sequences of his entire genome or transcriptome.The understanding of a pathology and of the genes associated with it now depends on our ability to identify causal variants within a plethora of technical artifact and benign variants.HTS is expected to be particularly useful in the field infertility as this pathology is expected to be highly genetically heterogeneous and only a few genes have so far been associated with it. My thesis focuses on male infertility and is divided into two main parts: HTS data analysis of infertile men and the molecular characterization of a specific phenotype, globozoospermia.Several thousands of distinct variants can be identified in a single exome, thereby using effective informatics is essential in order to obtain a short and actionable list of variants. It is for this purpose that I developed a HTS data analysis pipeline performing successively all bioinformatics analysis steps: 1) reads mapping along a reference genome, 2) genotype calling, 3) variant annotation and 4) the filtering of the variants considered as non-relevant for the analysis. Performing all these independent steps within a single pipeline is a good way to calibrate them and therefore to reduce the number of erroneous calls. This pipeline has been used in five studies and allowed the identification of variants impacting candidate genes that may explain the patients’ infertility phenotype. All these variants have been experimentally validated using Sanger sequencing.I also took part in the genetic and molecular investigations which permitted to demonstrate that the absence of the DPY192 gene induces male infertility due to globozoospermia, the presence in the ejaculate of only round-headed and acrosomeless spermatozoa. Most patients with globozoospermia have a homozygous deletion of the whole gene. I contributed to the characterization of the mechanisms responsible for this recurrent deletion, then, using Dpy19l2 knockout (KO) mice, I realized the comparative study of testicular transcriptome of wild type and Dpy19l2 -/- KO mice. This study highlighted a dysregulation of 76 genes in KO mice. Among them, 23 are involved in nucleic acid and protein binding, which may explain acrosome anchoring defaults observed in the sperm of globozoospermic patients.My work allowed a better understanding of globozoospermia and the development of a HTS data analysis pipeline. The latter allowed the identification of more than 15 human gametogenesis genes involved in different infertility phenotypes.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.