Associer analyse syntaxique et analyse discursive pour le repérage automatique d’informations potentiellement obsolescentes dans des documents encyclopédiques

par Marion Laignelet

Thèse de doctorat en Linguistique. Traitement automatique des langues

Sous la direction de Marie-Paule Péry-Woodley.

Soutenue en 2009

à Toulouse 2 .


  • Résumé

    La question de la mise à jour des documents se pose dans de nombreux domaines, notamment dans le domaine de l'édition encyclopédique : les ouvrages publiés doivent être continuellement vérifiés afin de ne pas mettre en avant des informations fausses ou altérées par le temps. Dans ce travail, nous proposons la mise en oeuvre d'un prototype d'aide à la mise à jour : l'objectif est le repérage automatique de zones textuelles dans lesquelles l'information est potentiellement obsolescente. Nous proposons la prise en compte d'indices linguistiques et discursifs variés et faisant appel à des niveaux d'analyses différents. L'obsolescence étant un phénomène non linguistique, notre hypothèse est qu'il faut considérer les indices linguistiques et discursifs en termes de combinaisons. Sur un corpus annoté manuellement par des experts, nous projetons un repérage automatique d'un grand nombre d'indices linguistiques, discursifs et structurels. Un système d'apprentissage automatique est ensuite mis en place afin de faire émerger les configurations d'indices pertinentes dans les segments obsolescents caractérisés par les experts. Nos objectifs sont remplis : nous proposons une description fine de l'obsolescence dans notre corpus de textes encyclopédiques et ainsi qu'un prototype logiciel d'aide à la mise à jour des textes. Une double évaluation a été menée : par validation croisée sur le corpus d'apprentissage et par les experts sur un corpus de test. Les résultats sont encourageants et nous amènent à faire évoluer la définition de l'obsolescence, sur la base des découvertes émergeant des corpus et dans l'interaction avec les besoins des experts concernant l'aide à la mise à jour.

  • Titre traduit

    Syntactic and discursive analysis


  • Résumé

    The question of document updating arises in many areas. It is central to the field of encyclopaedia publishing : encyclopaedias must be constantly checked in order not to put forward wrong or time-altered information. We describe the implementation of a prototype of an aid to updating. Its aims is to automatically locate zones of text in which information might be obsolescent. The method we propose takes into account various linguistic and discursive cues calling on different levels of analysis. As obsolescence is a non-linguistic phenomenon, our hypothesis is that linguistic and discursive cues must be considered in terms of combinations. Our corpus is first manually annotated by experts for zones of obsolescence. We then apply automatic tagging of a large number of linguistic, discursive and structural cues onto the annotated corpus. A machine learning system is then implemented to bring out relevant cue configurations in the obsolescent segments characterized by the experts. Both our objectives have been achieved : we propose a detailed description of obsolescence in our corpus of encyclopaedic texts as well as a prototype aid to updating. A double evaluation was carried out : by cross validation on the corpus used for machine learning and by experts on a test corpus. Results are encouraging. They lead us to an evolution of the definition of obsolescent segments, first, on the basis of the "discoveries" emerging from our corpora and also through interaction with the needs of the experts with respect to an aid to updating. The results also show limits in the automatic tagging of the linguistic and discursive cues.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (280 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 219-227

Où se trouve cette thèse ?

  • Bibliothèque : Université Toulouse Jean Jaurès. Bibliothèque universitaire centrale de lettres et sciences humaines.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Toulouse Jean Jaurès. Bibliothèque universitaire centrale de lettres et sciences humaines.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.