Compression de textes en langue naturelle

par Claude Martineau

Thèse de doctorat en Informatique fondamentale

Sous la direction de Maxime Crochemore.

Soutenue en 2001

à Marne-la-Vallée .


  • Résumé

    Nous étudions dans cette thèse les méthodes de compression de données dans le cadre de leur utilisation pour le traitement de textes en langue naturelle. Nous nous intéressons particulièrement aux algorithmes utilisant les mots comme unité de base. Nous avons développé des algorithmes qui permettent de diviser la taille originale du texte par un coefficient de l'ordre de 3,5 en conservant l'accès direct (via un index) au texte sous forme comprimée. L'ensemble des mots qui composent un texte (le lexique) n'est pas, (a priori) connu. Compresser efficacement un texte nécessite donc de compresser également le lexique des mots qui le constitue. Dans ce but, nous avons mis au point une méthode de représentation des lexiques qui permet, en lui appliquant une compression à base de chaînes de Markov, d'obtenir des taux de compression très importants. Les premiers algorithmes dédiés à la compression de textes en langue naturelle ont été élaborés dans le but d'archiver de volumineuses bases de données textuelles, pouvant atteindre plusieurs dizaines de gigaoctets, pour lesquelles la taille du lexique est très inférieure à celle des données. Nos algorithmes peuvent s'appliquer aussi aux textes de taille usuelle (variant d'une cinquantaine de Ko à quelques Mo) pour lesquels la taille du lexique représente une part importante de celle du texte

  • Titre traduit

    Compression of texts in natural language


  • Résumé

    In this Ph. D. Thesis we investigate several data compression methods on text in natural language. Our study is focused on algorithms that use the word as the basic units, they are usally called word-based text compression algorithms. We have developped algorithms that allow to divide original size of the text by an average factor of 3. 5 and keeps (medium an index) direct access to the compressed form of the text. The set of words of a text, (the lexicon) is not a priori known. An efficient compression of the text requires an efficient compression of its lexicon. For this purpose, we have developped a compact representation of the lexicon that allows, by the application of Markov chain based compression algorithms, to get very high compression rates. The early algorithms dedicated to compress text in natural language have been elaborated to process very large text databases in which the size of the lexicon is very small versus the data one. Our algorithms can be apply also to every day text size (from some fifty Ko up to some Mo) for which the size of the lexicon is an important part of the size of the text

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XII-170 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 165-168 (71 réf.). Index

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Est Marne-la-Vallée. Bibliothèque.
  • Consultable sur place dans l'établissement demandeur
  • Cote : 2001 MAR 0123
  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-654
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.