Analyse de profils phylogéniques et de niveaux d'expression génétique par Décomposition Bayésienne

par Ghislain Bidaut

Thèse de doctorat en Bio-informatique

Sous la direction de Jean-Michel Claverie.


  • Résumé

    Nous détaillons ici une nouvelle technique, la Décomposition Bayésienne, et son application à l'analyse de données biologiques: expression génétique et profils phylogéniques. La Décomposition Bayésienne associe un modèle Bayésien à un échantillonneur de Monte-Carlo par Chaîne de Markov (MCMC) permettant de déduire un modèle prenant la forme d'un produit de deux matrices à partir de données expérimentales. L'application de la Décomposition Bayésienne sur une matrice de similarité contenant environ un millier de gènes pour 31 bactéries a permis d'isoler les gènes spécifiques à certaines lignées de bactéries. Ce système a le potentiel d'aider à la découverte de gènes cibles pour le développement de nouveaux antibiotiques, et de répondre à la résistance croissante des bactéries. En analyse de microarrays, nous avons pu grouper des gènes de façon cohérente dans un jeu de données complexe (Le Compendium publié par Rosetta Inpharmatics). Son analyse par Décomposition Bayésienne a permis d'isoler un groupe de gènes relatif à la reproduction.

  • Titre traduit

    Phylogenomic profiles and gene expression levels analyses by Bayesian Decomposition


  • Résumé

    We present a new data mining technique, Bayesian Decomposition, and its application to the analysis of biological data: gene expression microarrays and phylogenomic profiles. Bayesian Decomposition uses a Markov Chain Monte Carlo method together with a Bayesian model. This permits to infer a model that takes the form of two matrices that, multiplied together, reconstruct the data. Unlike classical approaches such as hierarchical clustering, where genes are dispatched into single groups, Bayesian Decomposition brings a model physiologically meaningful where genes can belong to multiple functional groups. The application of the approach to a phylogenomic dataset with a similarity matrix of a thousand genes for 31 bacteria allowed the separation of genes related to specific bacterial lineages. This data has the potential to help the discovery of gene targets for new antibiotics and tackle bacterial resistance. In microarrays analysis, we grouped genes coherently in a complex dataset (The Rosetta Inpharmatics Compendium). The data analysis by Bayesian Decomposition allowed the retrieval of the genes involved in the mating pathway.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 76 f.+annexes
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr.f.[71]-76

Où se trouve cette thèse ?

  • Bibliothèque : Université Aix-Marseille (Marseille. Luminy). Service commun de la documentation. Bibliothèque de sciences.
  • Disponible pour le PEB
  • Cote : 40674
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.