Thèse soutenue

Réduction de dimension pour l'apprentissage supervisé de données issues de puce à ADN

FR  |  
EN
Auteur / Autrice : Blaise Hanczar
Direction : Jean-Daniel Zucker
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2006
Etablissement(s) : Paris 13

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Les puces à ADN ont permis de faire beaucoup de progrès dans l'étude du transcriptome, et ont de très nombreuses applications potentielles, en particulier dans le diagnostique médical. Elles permettent de mesurer simultanément le niveau d'expression de plusieurs milliers de gènes dans une condition donnée. Les données produites sont analysées par des méthodes issues des statistiques et de l'apprentissage artificiel, cependant elles posent des problèmes spécifiques. Il y a une grande disproportion entre le nombre d'attributs (quelques milliers) et celui des exemples (quelques dizaines). Une réduction de dimension est donc requise afin d'obtenir des performances en classification et une interprétation biologique correctes. Nous avons développé pour cela deux méthodes de réduction de dimensions originales. La première, ProGene, effectue une compression de l'expression des gènes grâce à la construction de nouveaux attributs. La seconde mesure les interactions d'information entre les gènes et identifie des paires de gènes synergiques afin d'améliorer la classification. Nous montrons ensuite comment exploiter ces interactions afin de construire des réseaux de gènes et identifier les fonctions biologiques mobilisées dans les expériences. Nous terminons par une application de ces méthodes sur des données d'expression portant sur l'obésité issues du service de nutrition de l'hôpital Hôtel-Dieu.