Développement de logiciels d'halotypage et applications

par Olivier Delaneau

Thèse de doctorat en Bio-informatique

Sous la direction de Jean-François Zagury.

Soutenue en 2008

à Paris, CNAM .


  • Résumé

    Les récentes avancées faites dans les techniques de biologie moléculaire ont mis à disposition de la communauté scientifique une grande quantité de marqueurs génétiques pouvant être analysés pour rechercher des facteurs génétiques de risque pour des maladies. A l’heure actuelle, ces techniques fournissent les génotypes, c'est-à-dire les allèles présents à chacun des marqueurs, mais elles ne permettent toujours pas d’obtenir les haplotypes, c'est-à-dire les combinaisons d’allèles de ces marqueurs que l’on retrouve sur le même chromosome. Or l’utilisation des haplotypes permet de prendre en compte simultanément l’information de plusieurs marqueurs dans l’analyse, ce qui s���avère très utile, notamment dans le cas des maladies communes. Pour cela, plusieurs méthodes de détermination « in silico » des haplotypes ont été développées depuis les années 90, dont des méthodes statistiques qui permettent d’obtenir robustement les haplotypes à partir des génotypes. Elles restent malheureusement sujettes à une complexité algorithmique qui s’avère souvent exponentielle avec le nombre de marqueurs traités. Pour surmonter ce problème de complexité et de temps de calcul, nous avons adapté plusieurs de ces méthodes d’inférence statistique à des représentations arborescentes des espaces possibles de reconstructions d’haplotypes. Nous avons notamment développé un algorithme EM et un algorithme pour modèle de Markov caché qui tirent profit de cette représentation sous forme d’arbre, en explorant uniquement les branches suffisamment probables, brisant ainsi l’aspect exponentiel du problème. Ces deux méthodes ont été implémentées respectivement dans les logiciels Ishape et ShapeIT. Nous avons ensuite comparé extensivement ces deux logiciels avec ceux utilisés jusqu’à présent par la communauté. Les résultats nous ont montré que ces deux logiciels permettaient d’obtenir une robustesse identique des haplotypes reconstruits, tout en réduisant les temps de calcul de façon significative. Ils permettent notamment d’appliquer le modèle statistique le plus efficace sur une masse de données qui lui était inaccessible jusqu’à présent. Ils trouvent donc une utilité toute particulière à l’heure où plusieurs centaines de milliers de marqueurs sont disponibles à moindre coût. De manière intéressante, la technique d’implémentation par arborescence des calculs de modèles de Markov cachés développée dans Shape-IT doit pouvoir s’appliquer à des domaines autres que la bioinformatique tels que la physique ou la finance.

  • Titre traduit

    Development of haplotyping software and applications


  • Résumé

    The recent advances in molecular biology have given access to a large amount of genetic markers, which can be associated with various disease phenotypes in order to discover the molecular etiology of common diseases. These techniques provide genotypes which are the alleles observed for each marker on chomosomes, but not the haplotypes which are the allele combinations on the same chromosome. The use of haplotypes allows to take into account simultaneously the information carried by several markers and this is very useful biology-wise. Haplotypes can be computed from the genotype data in a given population and since 1990, several methods “in silico” of inference of haplotypes have been developed, notably the statistical methods which have shown the best accuracy. Unfortunately, the methods developed still required computations with an exponential complexity with the number of markers. To avoid this, we have adapted several methods of statistical haplotype inference to use tree representations of the possible haplotype space. We have notably developed an EM algorithm and a hidden Markov model algorithm working with tree representations which permit to explore only the most probable branches of the tree in order to break the exponential complexity. These two methods were implemented respectively in the software packages Ishape and ShapeIT. We have extensively compared these two software to the haplotyping software most widely used by the community. The results show that these two software yielded an excellent accuracy while reducing strongly the running times. They thus represent a huge improvement in the context of the hundreds of thousands genetic markers available today.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (177 p.)
  • Annexes : Bibliogr. p. 168-176

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
  • Non disponible pour le PEB
  • Cote : Th A 626
  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
  • Disponible pour le PEB
  • Cote : Th A 626 double
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.