Associer analyse syntaxique et analyse discursive pour le repérage automatique d’informations potentiellement obsolescentes dans des documents encyclopédiques

par Marion Laignelet

Thèse de doctorat en Linguistique. Traitement automatique des langues

Sous la direction de Marie-Paule Péry-Woodley.

Soutenue en 2009

à Toulouse 2 .

  • Titre traduit

    Syntactic and discursive analysis


  • Pas de résumé disponible.


  • Résumé

    La question de la mise à jour des documents se pose dans de nombreux domaines, notamment dans le domaine de l'édition encyclopédique : les ouvrages publiés doivent être continuellement vérifiés afin de ne pas mettre en avant des informations fausses ou altérées par le temps. Dans ce travail, nous proposons la mise en oeuvre d'un prototype d'aide à la mise à jour : l'objectif est le repérage automatique de zones textuelles dans lesquelles l'information est potentiellement obsolescente. Nous proposons la prise en compte d'indices linguistiques et discursifs variés et faisant appel à des niveaux d'analyses différents. L'obsolescence étant un phénomène non linguistique, notre hypothèse est qu'il faut considérer les indices linguistiques et discursifs en termes de combinaisons. Sur un corpus annoté manuellement par des experts, nous projetons un repérage automatique d'un grand nombre d'indices linguistiques, discursifs et structurels. Un système d'apprentissage automatique est ensuite mis en place afin de faire émerger les configurations d'indices pertinentes dans les segments obsolescents caractérisés par les experts. Nos objectifs sont remplis : nous proposons une description fine de l'obsolescence dans notre corpus de textes encyclopédiques et ainsi qu'un prototype logiciel d'aide à la mise à jour des textes. Une double évaluation a été menée : par validation croisée sur le corpus d'apprentissage et par les experts sur un corpus de test. Les résultats sont encourageants et nous amènent à faire évoluer la définition de l'obsolescence, sur la base des découvertes émergeant des corpus et dans l'interaction avec les besoins des experts concernant l'aide à la mise à jour.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (280 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 219-227

Où se trouve cette thèse ?

  • Bibliothèque : Université Toulouse Jean Jaurès. Bibliothèque universitaire centrale de lettres et sciences humaines.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Toulouse Jean Jaurès. Bibliothèque universitaire centrale de lettres et sciences humaines.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.