Induction et visualisation interactive pour l'étiquetage morphosyntaxique des corpus de spécialité : application à la biologie moléculaire

par Ahmed Charef Eddine Amrani

Thèse de doctorat en Informatique

Sous la direction de Yves Kodratoff.


  • Résumé

    Dans le cadre d’un processus complet de fouille de textes, nous nous sommes intéressés à l’étiquetage morphosyntaxique des corpus de spécialité. Les étiqueteurs existants sont entraînés sur des corpus généraux, et engendrent une dégradation significative des performances lorsqu’ils sont appliqués à des corpus de spécialité. Pour résoudre ce problème, nous avons développé un étiqueteur interactif, convivial et inductif nommé ETIQ. Cet étiqueteur permet à l’expert de corriger l’étiquetage obtenu par un étiqueteur généraliste et de l’adapter à un corpus de spécialité. Nous avons complété notre approche afin de traiter de manière efficace les erreurs d’étiquetage récurrentes dues aux mots ambigus ayant des étiquettes différentes selon le contexte. Pour ce faire, nous avons utilisé l’apprentissage supervisé de règles de correction. Afin de réduire le nombre d’exemples à annoter, nous avons utilisé l’apprentissage actif. La correction des ambiguïtés difficiles à lever est une étape importante pour obtenir un corpus de spécialité « parfaitement » étiqueté. Pour lever ces ambiguïtés et donc diminuer le nombre de fautes d’étiquetage, nous avons adopté une approche interactive et itérative appelée Induction Progressive. Cette approche est une combinaison d’apprentissage automatique, de règles rédigées par l’expert et de corrections manuelles. L’induction progressive nous a permis d’obtenir un corpus de biologie moléculaire « correctement » étiqueté. En utilisant ce corpus, nous avons effectué une étude comparative de plusieurs étiqueteurs supervisés.

  • Titre traduit

    Induction and interactive visualization for part-of-speech tagging of specialized corpora : application to molecular biology


  • Résumé

    Within the framework of a complete text-mining process, we were interested in Part-of-Speech tagging of specialized corpora. The existing taggers are trained on general language corpora, and give inconsistent results on the specialized texts. To solve this problem, we developed an interactive, convivial and inductive tagger named ETIQ. This tagger makes it possible to the expert to correct the tagging obtained by a general tagger and to adapt it to a specialized corpus. We supplemented our approach in order to treat efficiently the recurring errors of part-of-speech tagging due to ambiguous words having different tags according to the context. With this intention, we used a supervised learning to induce correction rules. In some cases, when the rules are too difficult to generate by the expert of the text domain, we propose to the expert to annotate the examples in a very simple way using the interface. In order to reduce the number of total examples to annotate, we used an active learning algorithm. The correction of difficult part-of-speech tagging ambiguities is a significant stage to obtain a ‘perfectly’ tagged specialized corpus. In order to resolve these ambiguities and thus to decrease the number of tagging errors, we used an interactive and iterative approach we call: Progressive Induction. This approach is a combination of machine learning, of hand-crafted rules, and of manually engineered corrections by user. The proposed approach enabled us to obtain a “correctly” tagged molecular biology corpus. By using this corpus, we carried out a comparative study of several taggers.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (155 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 133-147

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2005)369
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.