Apprentissage automatique de relations d'équivalence sémantique à partir du Web - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2003

Semantic equivalence relationship learning from the Web

Apprentissage automatique de relations d'équivalence sémantique à partir du Web

Résumé

This PhD thesis can be situated in the context of a question answering system, which is capable of automatically finding answers to factual questions on the Web. One way to improve the quality of these answers is to increase the recall rate of the system, by identifying the answers under multiple possible formulations(paraphrases). As the manual recording of paraphrases is a long and expensive task, the goal of this PhD thesis is to design and develop a mechanism that learns automatically and in a weakly supervised manner the possible paraphrases of an answer. Thanks to the redundance and the linguistic variety of the information it contains, the Web is considered to be a very interesting corpus. Assimilated to a gigantic bipartite graph represented, on the one hand, by formulations and, on the other hand, by argument couples, the Web turns out to be propitious to the application of Firth's hypothesis, according to which "you shall know a word (resp. a formulation, in our case) by the company (resp. arguments) it keeps". Consequently, the Web is sampled using an iterative mechanism : formulations (potential paraphrases) are extracted by anchoring arguments and, inversely, new arguments are extracted by anchoring the acquired formulations. In order to make the learning process converge, an intermediary stage is necessary, which partitions the sampled data using a statistical classification method. The obtained results were empirically evaluated, which, more particularly, shows the value added by the learnt paraphrases of the question answering system.
Cette thèse s'inscrit dans le contexte d'un système de Questions-Réponses, capable de trouver automatiquement sur le Web la réponse à des questions factuelles traitant de n'importe quel sujet. L'une des manières d'améliorer la qualité des réponses fournies consiste à augmenter le taux de rappel du système. Pour cela, il est nécessaire de pouvoir identifier les réponses sous de multiples formulations possibles. A titre illustratif, la réponse à la question "Quelle est la hauteur de la Tour Eiffel ?" peut non seulement être exprimée de la même manière que dans la question ("la hauteur de la Tour Eiffel est 300 mètres"), mais également sous d'autres formes lexico-syntaxiques ("la Tour Eiffel culmine à 300 mètres", "la Tour Eiffel fait 300 mètres de haut", etc). On parle alors de paraphrases de la réponse. Le recensement manuel de ces paraphrases étant un travail long et coûteux, l'objectif de cette thèse est de concevoir et développer un mécanisme capable d'apprendre de façon automatique et faiblement supervisée les paraphrases possibles d'une réponse. Inscrite dans le vaste domaine de l'acquisition automatique de connaissances sémantiques, la méthode d'apprentissage présentée fait du Web son corpus privilégié, en particulier par la redondance et la variété linguistique des informations qu'il contient. Considéré comme un gigantesque graphe biparti représenté, d'une part, par des formulations (expressions d'une relation sémantique, comme "culmine à" ou "fait ... de haut") et d'autre part par des couples d'arguments (entités nommées régies par ces formulations, comme "Tour Eiffel - 300 mètres"), le Web s'avère propice à l'application de la citation de Firth, selon laquelle le sens d'un terme (respectivement d'une formulation, dans notre cas) est lié aux termes (respectivement aux arguments) avec lesquels il cooccurre. Ainsi, par un mécanisme itératif, le Web est échantillonné: les formulations (paraphrases potentielles) sont extraites par ancrage des arguments sur le Web et, inversement, de nouveaux arguments sont extraits par ancrages des formulations acquises. Afin de permettre à l'apprentissage de converger, une étape intermédiaire de classification statistique des données échantillonnées est nécessaire. Les résultats obtenus ont fait l'objet d'une évaluation empirique, ce qui permet en particulier de montrer la valeur ajoutée des paraphrases apprises sur le système de Questions-Réponses. De plus, ces résultats mettent en évidence quelques perspectives exploratoires qui permettront d'améliorer le processus d'apprentissage et de l'utiliser dans d'autres contextes applicatifs.
Fichier principal
Vignette du fichier
BAT_Duclaye.pdf (81.3 Ko) Télécharger le fichier
These.pdf (1.94 Mo) Télécharger le fichier

Dates et versions

pastel-00001119 , version 1 (22-11-2010)

Identifiants

  • HAL Id : pastel-00001119 , version 1

Citer

Florence Duclaye. Apprentissage automatique de relations d'équivalence sémantique à partir du Web. domain_other. Télécom ParisTech, 2003. Français. ⟨NNT : ⟩. ⟨pastel-00001119⟩
295 Consultations
1218 Téléchargements

Partager

Gmail Facebook X LinkedIn More