La consanguinité à l'ère du génome haut-débit : estimations et applications

par Steven Gazal

Thèse de doctorat en Génétique statistique

Sous la direction de Emmanuelle Génin.

Soutenue le 24-06-2014

à Paris 11 , dans le cadre de École doctorale Santé publique (2000-2015 ; Paris) , en partenariat avec Variabilité Génétique et Maladies Humaines (Paris) (laboratoire) .

Le président du jury était Laurent Abel.

Le jury était composé de Laurent Abel, Evelyne Heyer, Maria Martinez, Cécile Julier, Jean-François Zagury, Anne-Louise B. Leutenegger.

Les rapporteurs étaient Evelyne Heyer, Maria Martinez.


  • Résumé

    Un individu est dit consanguin si ses parents sont apparentés et s’il existe donc dans sa généalogie au moins une boucle de consanguinité aboutissant à un ancêtre commun. Le coefficient de consanguinité de l’individu est par définition la probabilité pour qu’à un point pris au hasard sur le génome, l’individu ait reçu deux allèles identiques par descendance qui proviennent d’un seul allèle présent chez un des ancêtres communs. Ce coefficient de consanguinité est un paramètre central de la génétique qui est utilisé en génétique des populations pour caractériser la structure des populations, mais également pour rechercher des facteurs génétiques impliqués dans les maladies. Le coefficient de consanguinité était classiquement estimé à partir des généalogies, mais des méthodes ont été développées pour s’affranchir des généalogies et l’estimer à partir de l’information apportée par des marqueurs génétiques répartis sur l’ensemble du génome.Grâce aux progrès des techniques de génotypage haut-débit, il est possible aujourd’hui d’obtenir les génotypes d’un individu sur des centaines de milliers de marqueurs et d’utiliser ces méthodes pour reconstruire les régions d’identité par descendance sur son génome et estimer un coefficient de consanguinité génomique. Il n’existe actuellement pas de consensus sur la meilleure stratégie à adopter sur ces cartes denses de marqueurs en particulier pour gérer les dépendances qui existent entre les allèles aux différents marqueurs (déséquilibre de liaison). Dans cette thèse, nous avons évalué les différentes méthodes disponibles à partir de simulations réalisées en utilisant de vraies données avec des schémas de déséquilibre de liaison réalistes. Nous avons montré qu’une approche intéressante consistait à générer plusieurs sous-cartes de marqueurs dans lesquelles le déséquilibre de liaison est minimal, d’estimer un coefficient de consanguinité sur chacune des sous-cartes par une méthode basée sur une chaîne de Markov cachée implémentée dans le logiciel FEstim et de prendre comme estimateur la médiane de ces différentes estimations. L’avantage de cette approche est qu’elle est utilisable sur n’importe quelle taille d’échantillon, voire sur un seul individu, puisqu’elle ne demande pas d’estimer les déséquilibres de liaison. L’estimateur donné par FEstim étant un estimateur du maximum de vraisemblance, il est également possible de tester si le coefficient de consanguinité est significativement différent de zéro et de déterminer la relation de parenté des parents la plus vraisemblable parmi un ensemble de relations. Enfin, en permettant l’identification de régions d’homozygoties communes à plusieurs malades consanguins, notre stratégie peut permettre l’identification des mutations récessives impliquées dans les maladies monogéniques ou multifactorielles.Pour que la méthode que nous proposons soit facilement utilisable, nous avons développé le pipeline, FSuite, permettant d’interpréter facilement les résultats d’études de génétique de populations et de génétique épidémiologique comme illustré sur le panel de référence HapMap III, et sur un jeu de données cas-témoins de la maladie d’Alzheimer.

  • Titre traduit

    Consanguinity in the High-Throughput Genome Era : Estimations and Applications


  • Résumé

    An individual is said to be inbred if his parents are related and if his genealogy contains at least one inbreeding loop leading to a common ancestor. The inbreeding coefficient of an individual is defined as the probability that the individual has received two alleles identical by descent, coming from a single allele present in a common ancestor, at a random marker on the genome. The inbreeding coefficient is a central parameter in genetics, and is used in population genetics to characterize the population structure, and also in genetic epidemiology to search for genetic factors involved in recessive diseases.The inbreeding coefficient was traditionally estimated from genealogies, but methods have been developed to avoid genealogies and to estimate this coefficient from the information provided by genetic markers distributed along the genome.With the advances in high-throughput genotyping techniques, it is now possible to genotype hundreds of thousands of markers for one individual, and to use these methods to reconstruct the regions of identity by descent on his genome and estimate a genomic inbreeding coefficient. There is currently no consensus on the best strategy to adopt with these dense marker maps, in particular to take into account dependencies between alleles at different markers (linkage disequilibrium).In this thesis, we evaluated the different available methods through simulations using real data with realistic patterns of linkage disequilibrium. We highlighted an interesting approach that consists in generating several submaps to minimize linkage disequilibrium, estimating an inbreeding coefficient of each of the submaps based on a hidden Markov method implemented in FEstim software, and taking as estimator the median of these different estimates. The advantage of this approach is that it can be used on any sample size, even on an individual, since it requires no linkage disequilibrium estimate. FEstim is a maximum likelihood estimator, which allows testing whether the inbreeding coefficient is significantly different from zero and determining the most probable mating type of the parents. Finally, through the identification of homozygous regions shared by several consanguineous patients, our strategy permits the identification of recessive mutations involved in monogenic and multifactorial diseases.To facilitate the use of our method, we developed the pipeline FSuite, to interpret results of population genetics and genetic epidemiology studies, as shown on the HapMap III reference panel, and on a case-control Alzheimer's disease data.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.