Réduction de dimension pour l'apprentissage supervisé de données issues de puce à ADN
Auteur / Autrice : | Blaise Hanczar |
Direction : | Jean-Daniel Zucker |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2006 |
Etablissement(s) : | Paris 13 |
Mots clés
Mots clés contrôlés
Résumé
Les puces à ADN ont permis de faire beaucoup de progrès dans l'étude du transcriptome, et ont de très nombreuses applications potentielles, en particulier dans le diagnostique médical. Elles permettent de mesurer simultanément le niveau d'expression de plusieurs milliers de gènes dans une condition donnée. Les données produites sont analysées par des méthodes issues des statistiques et de l'apprentissage artificiel, cependant elles posent des problèmes spécifiques. Il y a une grande disproportion entre le nombre d'attributs (quelques milliers) et celui des exemples (quelques dizaines). Une réduction de dimension est donc requise afin d'obtenir des performances en classification et une interprétation biologique correctes. Nous avons développé pour cela deux méthodes de réduction de dimensions originales. La première, ProGene, effectue une compression de l'expression des gènes grâce à la construction de nouveaux attributs. La seconde mesure les interactions d'information entre les gènes et identifie des paires de gènes synergiques afin d'améliorer la classification. Nous montrons ensuite comment exploiter ces interactions afin de construire des réseaux de gènes et identifier les fonctions biologiques mobilisées dans les expériences. Nous terminons par une application de ces méthodes sur des données d'expression portant sur l'obésité issues du service de nutrition de l'hôpital Hôtel-Dieu.