Méthodes d’apprentissage structuré pour la microbiologie : spectrométrie de masse et séquençage haut-débit.

par Kevin Vervier

Thèse de doctorat en Bio-informatique

Sous la direction de Jean-Philippe Vert.

Le jury était composé de Stéphane Robin, Eric Gaussier, Jean Philippe Vert, Pierre Mahé.

Les rapporteurs étaient Nicola Segata, Stéphane Canu.


  • Résumé

    L'utilisation des technologies haut débit est en train de changer aussi bien les pratiques que le paysage scientifique en microbiologie. D'une part la spectrométrie de masse a d'ores et déjà fait son entrée avec succès dans les laboratoires de microbiologie clinique. D'autre part, l'avancée spectaculaire des technologies de séquençage au cours des dix dernières années permet désormais à moindre coût et dans un temps raisonnable de caractériser la diversité microbienne au sein d'échantillons cliniques complexes. Aussi ces deux technologies sont pressenties comme les piliers de futures solutions de diagnostic. L'objectif de cette thèse est de développer des méthodes d'apprentissage statistique innovantes et versatiles pour exploiter les données fournies par ces technologies haut-débit dans le domaine du diagnostic in vitro en microbiologie. Le domaine de l'apprentissage statistique fait partie intégrante des problématiques mentionnées ci-dessus, au travers notamment des questions de classification d'un spectre de masse ou d'un “read” de séquençage haut-débit dans une taxonomie bactérienne.Sur le plan méthodologique, ces données nécessitent des développements spécifiques afin de tirer au mieux avantage de leur structuration inhérente: une structuration en “entrée” lorsque l'on réalise une prédiction à partir d'un “read” de séquençage caractérisé par sa composition en nucléotides, et un structuration en “sortie” lorsque l'on veut associer un spectre de masse ou d'un “read” de séquençage à une structure hiérarchique de taxonomie bactérienne.

  • Titre traduit

    Structured machine learning methods for microbiology : mass spectrometry and high-throughput sequencing


  • Résumé

    Using high-throughput technologies is changing scientific practices and landscape in microbiology. On one hand, mass spectrometry is already used in clinical microbiology laboratories. On the other hand, the last ten years dramatic progress in sequencing technologies allows cheap and fast characterization of microbial diversity in complex clinical samples. Consequently, the two technologies are approached in future diagnostics solutions. This thesis aims to play a part in new in vitro diagnostics (IVD) systems based on high-throughput technologies, like mass spectrometry or next generation sequencing, and their applications in microbiology.Because of the volume of data generated by these new technologies and the complexity of measured parameters, we develop innovative and versatile statistical learning methods for applications in IVD and microbiology. Statistical learning field is well-suited for tasks relying on high-dimensional raw data that can hardly be used by medical experts, like mass-spectrum classification or affecting a sequencing read to the right organism. Here, we propose to use additional known structures in order to improve quality of the answer. For instance, we convert a sequencing read (raw data) into a vector in a nucleotide composition space and use it as a structuredinput for machine learning approaches. We also add prior information related to the hierarchical structure that organizes the reachable micro-organisms (structured output).


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Mines ParisTech.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.