Méthodes probabilistes, floues et quantiques pour l'extraction de l'information biologique

par Thomas Sierocinski

Thèse de doctorat en Mathématiques et applications

Sous la direction de Dimitri Petritis et de Nathalie Théret.

Soutenue en 2008

à Rennes 1 .


  • Résumé

    Les progrès des technologies de mesure et le séquençage des génomes, ont permis l’émergence, dans les années 1990, de techniques de mesure globale de l’expression génique, les puces à ADN. Ce type d’expérience, dit à « haut débit », en raison du volume de données qu’elles génèrent nécessitent un traitement automatique pour l’interprétation des résultats. Dans ce but, de nombreuses approches ont été développées, essentiellement réparties en deux familles : les méthodes de classification supervisées et non supervisées. Nous présentons ici la distillation sémantique, une approche de classification non supervisée originale fondée sur un formalisme inspiré de la mesure physique en mécanique quantique permettant l’analyse des résultats d’analyse de puces à ADN. Cette méthode fournit à l’utilisateur une liste de gènes ordonnée par spécificité pour chaque échantillon biologique de l’expérience, décrivant ainsi chaque contexte cellulaire ainsi que l’influence de chaque gène dans ces contextes. Celleci a été mise à l’épreuve sur deux jeux de données : un jeu « tissus-spécifique » pour lequel notre méthode a correctement caractérisé les gènes spécifiques de chaque tissu, et un jeu de données cliniques de patients atteints de fibroses hépatiques à divers stades pour lequel la distillation sémantique a permis de trouver des signatures dans les voies métaboliques et les processus biologiques associés aux gènes spécifiques de chaque stade de la maladie.

  • Titre traduit

    Probabilistic, fuzzy and quantum methods for biological information retrieval


  • Résumé

    Advances in measurement technology and sequencing of genomes, have led to the emergence of DNA microarray technology in the 90’s, allowing overall measurement of gene expression. This type of experience is said “high throughput” because of the volume of data they generate requiring automatic processing for results interpretation. In this context, many approaches have been developed and can be divided into two families: supervised and unsupervised classification methods. We present here “semantic distillation” a novel unsupervised classification approach, based on a formalism inspired by the physical measurement in quantum mechanics, for the analysis of results from DNA chips. This method provides the user with an ordered list of specific genes for each biological sample of the experience, and describing each cellular context and the influence of each gene in these contexts. Semantic distillation was tested on two data sets: a “tissue-specific” set for which our method has correctly characterised specific genes for each tissue, and clinical data sets of patients with liver fibrosis at various stages for which semantic distillation helped to find signatures in metabolic pathways and biological processes associated with specific genes of each stage of the disease.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (IV-197 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 191-[198]

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2008/55
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.