Methodes et algorithmes de representation et de compression de grands dictionnaires de formes

par BOUBAKER MEDDES HAMROUN

Thèse de doctorat en Sciences appliquées

Sous la direction de Christian Boitet.

Soutenue en 1996

à Grenoble 1 .

    mots clés mots clés


  • Résumé

    Cette these concerne l'etude de differentes techniques qui peuvent etre mises en uvre pour representer et comprimer de tres grands dictionnaires de formes multilingues utilisables dans certaines applications de taln (detection/correction orthographique, reconnaissance de la parole, etc. ). La premiere partie de la these situe d'abord l'objet de cette etude et montre pourquoi les approches par dictionnaires de formes sont parfois plus adaptees que les approches par grammaires lors de la construction de certaines applications multilingues en taln. Nous faisons ensuite le point sur les methodes de rangement et de compression de dictionnaires et nous montrons, experiences a l'appui, que a part les methodes utilisant les automates d'etats finis deterministes, la plupart des methodes classiques sont peu efficace pour comprimer de grands dictionnaires. La seconde partie introduit la compression paradigmatique, une nouvelle approche de compression de dictionnaire de formes qui procede par factorisation d'un ensemble d'affixes appeles paradigmes. Dans une premiere section theorique, nous discutons les problemes poses par cette approche. Dans une seconde section, nous proposons de nouveaux algorithmes de compression qui n'utilise que des connaissances morphologiques elementaires. L'experimentation de la methode sur de grands dictionnaires de formes multilingues a montre que l'on peut se ramener, a partir d'un dictionnaire de formes initial et pour certaines langues, a un dictionnaire comprime ayant pratiquement la meme taille que le dictionnaire de lemmes, et cela sans l'intervention d'un linguiste. La methode a permis en outre d'ameliorer les resultats de compression des approches existantes, quelles que soient les structures internes utilisees. La troisieme partie presente une approche orthogonale a la seconde methode. Elle consiste a chercher l'automate ndet minimal qui reconnait l'ensemble des chaines d'un dictionnaire de


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 267 P.
  • Annexes : 143 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Accessible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.