Les motifs séquentiels pour les données issues des puces ADN

par Paola Salle

Thèse de doctorat en Informatique

Sous la direction de Danièle Hérin et de Maguelonne Teisseire.

Le président du jury était Violaine Prince.

Le jury était composé de Maguelonne Teisseire, Gina Devau, Jérôme Azé, Danièle Hérin, Sandra Bringay.

Les rapporteurs étaient Christine Golbreich, Florent Masseglia.


  • Résumé

    L'émergence des biotechnologies, telles que les puces ADN, a permis l'acquisition d'énormes quantités de données d'une cellule à un instant donné et sous certaines conditions. Elles sont devenues incontournables lorsqu'il s'agit de comprendre une maladie qui proviendrait d'une anomalie génomique perturbant le développement naturel entre la croissance, la division et la mort des cellules. En utilisant cette biotechnologie, l'objectif est d'identifier les gènes impliqués dans la maladie étudiée. Mais chaque puce donne l'information de plus de 19 000 gènes rendant difficile toute exploitation et analyse des résultats. La fouille de données a longtemps été étudiée pour mettre en évidence des corrélations non triviales à partir de grande base de données. Initialement proposées pour répondre aux interrogations des décideurs lorsqu'il s'agissait de mieux connaître le comportement des clients d'un supermarché, ces méthodes connaissent aujourd'hui un tel succès qu'elles ont été utilisées et adaptées dans divers domaines d'applications allant du marketing jusqu'à la santé. L'étude que nous proposons de mener est de proposer de nouvelles méthodes de fouille de données pour aider les biologistes à déduire de nouvelles connaissances à partir des données obtenues par l'analyse des puces ADN. Plus précisément, nous proposons de mettre en évidence des gènes fréquemment ordonnés selon leurs expressions et nous étudions l'apport de ce type d'information comme nouveau matériel d'étude pour les biologistes.

  • Titre traduit

    Mining sequential patterns for DNA microarrays


  • Résumé

    The emergence of biotechnology, such as DNA chips, has acquired huge amounts of data in a cell at a given moment and under certain conditions. They are used in order to understand a disease whose origin is a genomic abnormality disrupting the natural development between growth, division and cell death. Using this biotechnology, the aim is to identify the genes involved in disease studied. But each chip gives information on more than 19,000 genes then it is difficult to use and to analyse the results. Methods of Data mining are used in order to find interesting correlations from large database. Initially proposed to address questions about the behavior of customers of a supermarket, these methods are now used and adapted in various fields of applications ranging marketing to health. In this study, we propose new methods in order to help biologists to deduce new knowledge from data obtained by DNA microarray analysis. Specifically, we propose to identify genes frequently ordered by their expressions and we study the contribution of such information as the new study material for biologists.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Bibliothèque interuniversitaire. Section Sciences.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.