Apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambiguïsation d'entités nommées

par Thomas Girault

Thèse de doctorat en Informatique

Sous la direction de Pascale Sébillot.

Soutenue en 2010

à Rennes 1 .


  • Résumé

    Certaines applications du traitement automatique des langues sont amenées à traiter des flux de données textuelles caractérisés par l'emploi d'un vocabulaire en perpétuelle évolution, que ce soit au niveau de la création des mots que des sens de ceux existant déjà. En partant de ce constat, nous avons mis au point un algorithme incrémental pour construire automatiquement et faire évoluer une base lexicale qui répertorie des unités lexicales non étiquetées sémantiquement observées dans des flux. Cette base lexicale est représentée par un treillis de Galois qui organise des concepts formels (assimilés à des unités de sens) sur des niveaux de granularité allant du très spécifique au très général. Cette représentation est complétée par une modélisation vectorielle visualisable qui tient compte des aspects continus du sens et de la proximité sémantique entre concepts. Ce modèle est alors exploité pour propager l'étiquetage manuel d'un petit nombre d'entités nommées (EN : unités lexicales qui se référent habituellement à des personnes, des lieux, des organisations. . . ) à d'autres EN non étiquetées observées dans un flux pendant la construction incrémentale du treillis. Les concepts de ce treillis sont enrichis avec les étiquettes d'EN observées dans un corpus d'apprentissage. Ces concepts et leurs étiquettes attachées sont respectivement employés pour l'annotation non supervisée et la classification supervisée des EN d'un corpus de test.

  • Titre traduit

    Incremental machine learning for the construction of evolving lexical databases : application to named entity disambiguation


  • Résumé

    Some natural language processing applications have to deal with textual data streams characterized by the use of an evolving vocabulary, whether at the creation of words as at the change in the meaning of already existing words. In light of those observations, we have developed an incremental algorithm which can build automatically an evolving lexical database for identifying lexical units observed in a textual data stream. We used a concept lattice to build the lexical database from semantically unlabelled corpus. It allows us to infer formal concepts (similar to meaning units) organized into several granularity levels ranging from very specific to very general. This structured representation is completed with a cartographic model taking into account the continuous aspects of meaning and semantic proximity between concepts. This property is exploited to propagate the classification of a small number of named entities (NEs : lexical units which usually refer to people, places, organizations. . . ) to others NEs observed in unlabelled data streams during the incremental construction of the lattice. Once the lexical database is built, the concepts are enriched with NEs labels observed in a training corpus. The concepts and their attached labels are then respectively used for unsupervised annotation and supervised classification of NEs in test corpus.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XI-185 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 175-185

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2010/62
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.