Classification d'ARN codants et d'ARN non-codants

par Arnaud Fontaine

Thèse de doctorat en Informatique

Sous la direction de Hélène Touzet.

Soutenue le 31-03-2009

à Lille 1 .


  • Résumé

    Les travaux présentés dans cette thèse s'inscrivent dans le cadre de l'analyse de phénomènes biologiques par des moyens informatiques, c'est-à-dire la bio-informatique. Nous nous intéressons plus particulièrement à l'analyse de séquences nucléiques. Dans ce cadre, nos travaux se décomposent en deux parties: l'identification de séquences codantes et l'identification de séquences non-codantes partageant une structure conservée telles que des ARN non-codants. L'originalité des méthodes proposées, PROTEA et CARNAC, réside dans le traitement d'ensembles de séquences nucléiques faiblement conservées sans avoir recours à leur alignement au préalable. Ces méthodes s'appuient sur un même schéma global d'analyse comparative pour identifier des traces laissées par les mécanismes de sélection durant l'évolution, traces globalement cohérentes entre toutes les séquences. Nous avons évalué PROTEA et CARNAC sur des données de référence pour la communauté et obtenu plusieurs résultats significatifs. Dans le cadre de travaux collaboratifs, nous présentons également deux exemples intégrations de ces logiciels. MAGNOLIA est un logiciel qui construit un alignement multiple de séquences nucléiques respectueux de leur fonction commune prédites par PROTEA et/ou CARNAC. PROTEA et CARNAC sont également intégrés dans une plate-forme d'annotation automatique par génomique comparative.

  • Titre traduit

    Classification of coding RNAs and non-coding RNAs


  • Résumé

    The work described in this thesis is part of the analysis of biological phenomena using computers, id est bioinformatics. More precisely, We are interested in nucleic sequence analysis. ln this context, our work is splitted in two parts: identification of coding sequences and identification of non-coding sequences that share a common structure such as non-coding RNAs. The main feature of our methods, PROTEA and CARNAC, is to deal with poorly conserved sequences without the need to align them. Our methods rely on the same comparative analysis scheme to detect evolutionary patterns that are globally coherent between all sequences. PROTEA and CARNAC have been submitted on several reference benchmarks and have reached significative results. We also present two collaborative projects that involve PROTEA and CARNAC. MAGNOLIA is multiple alignement software designed to align nucleic sequences according to their conserved function predicted by PROTEA and/or CARNAC. The second collaborative project is a software pipeline to automatically annotate genomes by comparative genomics.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université des sciences et technologies de Lille. Service commun de la documentation. Bibliothèque virtuelle.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.