Methodes et algorithmes de representation et de compression de grands dictionnaires de formes

par Boubaker Meddeb Hamrouni

Thèse de doctorat en Informatique

Sous la direction de Christian Boitet.

Soutenue en 1996

à Grenoble 1 .


  • Résumé

    Cette these concerne l'etude de differentes techniques qui peuvent etre mises en oeuvre pour representer et comprimer de tres grands dictionnaires de formes multilingues utilisables dans certaines applications de taln (detection/correction orthographique, reconnaissance de la parole, etc. ). La premiere partie de la these situe d'abord l'objet de cette etude et montre pourquoi les approches par dictionnaires de formes sont parfois plus adaptees que les approches par grammaires lors de la construction de certaines applications multilingues en taln. Nous faisons ensuite le point sur les methodes de rangement et de compression de dictionnaires et nous montrons, experiences a l'appui, que a part les methodes utilisant les automates d'etats finis deterministes, la plupart des methodes classiques sont peu efficace pour comprimer de grands dictionnaires. La seconde partie introduit la compression paradigmatique, une nouvelle approche de compression de dictionnaire de formes qui procede par factorisation d'un ensemble d'affixes appeles paradigmes. Dans une premiere section theorique, nous discutons les problemes poses par cette approche. Dans une seconde section, nous proposons de nouveaux algorithmes de compression qui n'utilise que des connaissances morphologiques elementaires. L'experimentation de la methode sur de grands dictionnaires de formes multilingues a montre que l'on peut se ramener, a partir d'un dictionnaire de formes initial et pour certaines langues, a un dictionnaire comprime ayant pratiquement la meme taille que le dictionnaire de lemmes, et cela sans l'intervention d'un linguiste. La methode a permis en outre d'ameliorer les resultats de compression des approches existantes, quelles que soient les structures internes utilisees. La troisieme partie presente une approche orthogonale a la seconde methode. Elle consiste a chercher l'automate ndet minimal qui reconnait l'ensemble des chaines d'un dictionnaire de

  • Titre traduit

    Algorithms and methods to represent and compress a large dictionaries of full inflected forms


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (267 p.)
  • Annexes : 143 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Accessible pour le PEB
  • Bibliothèque : Moyens Informatiques et Multimédia. Information.
  • Disponible pour le PEB
  • Cote : IMAG-1996-MED
  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-329
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.