Apprentissage automatique de relations d'équivalence sémantique à partir du Web

par Florence Aude Dorothée Duclaye

Thèse de doctorat en Informatique et réseaux

Sous la direction de François Yvon.

Soutenue en 2003

à Paris, ENST .

  • Titre traduit

    Semantic equivalence relationship learning from the Web


  • Pas de résumé disponible.


  • Résumé

    Cette thèse s'inscrit dans le contexte d'un système de questions-réponses, capable de trouver automatiquement sur le Web la réponse à des questions factuelles. L'une des manières d'améliorer la qualité des réponses fournies consiste à augmenter le taux de rappel du système et à identifier pour cela les réponses sous de multiples formulations possibles (paraphrases). Le recensement manuel de ces paraphrases étant un travail long et coûteux, l'objectif de cette thèse est de concevoir et développer un mécanisme d'apprentissage automatique et faiblement supervisé des paraphrases possibles d'une réponse. La méthode d'apprentisage présentée fait du Web son corpus privilégié, en particulier par la redondance et la variété linguistique des informations qu'il contient. Considéré comme un gigantesque graphe biparti représenté, d'une part, par des formulations et, d'autre part, par des couples d'arguments, le Web s'avère propice à l'application de la citation de Firth, selon laquelle le sens d'un terme (respectivement d'une formulation, dans notre cas) est lié aux termes (respectivement aux arguments) avec lesquels il cooccurre. Ainsi, par un mécanisme itératif, le Web est échantillonné : les formulations (paraphrases potentielles) sont extraites par ancrage des arguments, et inversement, de nouveaux arguments sont extraits par ancrage des formulations acquises. Afin de permettre à l'apprentissage de converger, une étape intermédiaire de classification statistique des données échantillonnées est nécessaire. Les résultats obtenus ont fait l'objet d'une évaluation empirique, montrant en particulier la valeur ajoutée des paraphrases apprises sur le système de questions-réponses

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (201 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 121 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.