Thèse soutenue

Apprentissage automatique appliqué à l'extraction d'information à partir de textes biologiques

FR  |  
EN
Auteur / Autrice : Mohamed Ould Abdel Vetah
Direction : Yves Kodratoff
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2005
Etablissement(s) : Paris 11
Partenaire(s) de recherche : Autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Mots clés

FR

Résumé

FR  |  
EN

Dans le cadre de cette thèse nous nous sommes intéressés à l'extraction d'informations à partir de données textuelles. Dans ce domaine, deux grandes approches co-existent. La première, qui consiste en un traitement statistique superficiel présente l'avantage d'avoir une mise en oeuvre facile. En revanche, l'information extraite est souvent imprécise, de nature incomplète et bruitée. La deuxième voie, consiste à privilégier des techniques plus profondes d'analyse et de normalisation textuelles ainsi que l'exploitation des techniques d'apprentissage automatique pour acquérir les ressources nécessaires à la tâche. Ce type d'approche, complexe et dont la mise en oeuvre est difficile permet une meilleure prise en compte de la diversité des formulations dans le texte. Il permet également un gain de temps appréciable quand il s'agit d'adapter les ressources, notamment quand la tâche d'extraction change. Dans cette thèse, nous avons contribué à la mise en place d'une chaîne complète d'extraction des interactions géniques à partir de résumés scientifique issus de MedLine basée sur cette seconde famille d'approches. Dans la première partie de notre travail, nous avons mis au point un module de filtrage de phrases, disponible en ligne et déjà utilisé par les biologistes, permettant d'identifier automatiquement les phrases parlant d'interactions. Dans un deuxième temps, nous avons proposé une méthode originale d'acquisition de règles d'extraction basée sur une abstraction de l'analyse syntaxique Les résultats préliminaires obtenus sont prometteurs et montrent que cette abstraction permet d'obtenir une bonne représentation pour l'apprentissage des règles d'extraction.