Use of data analysis techniques to solve specific bioinformatics problems

par Serge Moulin

Thèse de doctorat en Informatique

Sous la direction de Christophe Guyeux et de Stéphane Chrétien.

Soutenue le 12-12-2018

à Bourgogne Franche-Comté , dans le cadre de École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; Dijon ; Belfort) , en partenariat avec FEMTO-ST : Franche-Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (Besançon) (laboratoire) , Université ouverte de Franche-Comté (Etablissement de soutenance) et de Franche-Comté Électronique Mécanique- Thermique et Optique - Sciences et Technologies (UMR 6174) / FEMTO-ST (laboratoire) .

Le président du jury était Julien Jacques.

Le jury était composé de Christophe Guyeux, Stéphane Chrétien, Julien Jacques, Arnaud Le Rouzic.

Les rapporteurs étaient Julien Jacques, Arnaud Le Rouzic.

  • Titre traduit

    Apport de techniques d'analyse de données pour résoudre des problèmes spécifiques en bio-informatique


  • Résumé

    De nos jours, la quantité de données génétiques séquencées augmente de manière exponentielle sous l'impulsion d'outils de séquençage de plus en plus performants, tels que les outils de séquençage haut débit en particulier. De plus, ces données sont de plus en plus facilement accessibles grâce aux bases de données en ligne. Cette plus grande disponibilité des données ouvre de nouveaux sujets d'étude qui nécessitent de la part des statisticiens et bio-informaticiens de développer des outils adaptés. Par ailleurs, les progrès constants de la statistique, dans des domaines tels que le clustering, la réduction de dimension, ou les régressions entre autres, nécessitent d'être régulièrement adaptés au contexte de la bio-informatique. L’objectif de cette thèse est l’application de techniques avancées de statistiques à des problématiques de bio-informatique. Dans ce manuscrit, nous présentons les résultats de nos travaux concernant le clustering de séquences génétiques via Laplacian eigenmaps et modèle de mélange gaussien, l'étude de la propagation des éléments transposables dans le génome via un processus de branchement, l'analyse de données métagénomiques en écologie via des courbes ROC ou encore la régression polytomique ordonnée pénalisée par la norme l1.


  • Résumé

    Nowadays, the quantity of sequenced genetic data is increasing exponentially under the impetus of increasingly powerful sequencing tools, such as high-throughput sequencing tools in particular. In addition, these data are increasingly accessible through online databases. This greater availability of data opens up new areas of study that require statisticians and bioinformaticians to develop appropriate tools. In addition, constant statistical progress in areas such as clustering, dimensionality reduction, regressions and others needs to be regularly adapted to the context of bioinformatics. The objective of this thesis is the application of advanced statistical techniques to bioinformatics issues. In this manuscript we present the results of our works concerning the clustering of genetic sequences via Laplacian eigenmaps and Gaussian mixture model, the study of the propagation of transposable elements in the genome via a branching process, the analysis of metagenomic data in ecology via ROC curves or the ordinal polytomous regression penalized by the l1-norm.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Autre version

Use of data analysis techniques to solve specific bioinformatics problems


Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque universitaire électronique, Besançon.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.

Consulter en bibliothèque

à

Informations

  • Sous le titre : Use of data analysis techniques to solve specific bioinformatics problems
  • Détails : 1 vol. (130p.)
  • Annexes : Bibliogr. p.115-130
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.