Contribution à une modélisation statistique du langage et à sa mise en oeuvre informatique : thèse...

par Jean-Pierre Anfosso

Thèse de doctorat en Sciences du langage

Sous la direction de Étienne Brunet.

Soutenue en 2002

à Nice .


  • Résumé

    Automates finis, analyseurs lexicaux, choix d'une structure d'index ouvert, relevé des formes et des références en une seule passe, tri linéaire combinant tri par base et par dénombrement. Indexation et recherche de n-grammes, méthode de Rabin-Karp. Problèmes algébriques posés par des textes naturels (déchiffrabilité, charades). Utilisation de propriétés statistiques des textes pour la compression, le décryptement. Modélisation markovienne du langage et théorie des graphes. Simulation de chaînes. Estimateurs, ajustement d'un modèle sur une séquence de texte, test d'adéquation et choix d'un ensemble d'états. Transposition de méthodes utilisées par la génomique, pour attribuer une séquence textuelle à un type d'écriture (corpus, auteur), et pour découper un corpus en zones homogènes (recherche d'interpolation, de scripteurs différents). Implantation de modèles de Markov cachés, adaptation des algorithmes (Viterbi, forward, backward, Baum-Welch) à des modèles M1-Mk.

  • Titre traduit

    Contribution to a language statistical modelling and its implementation for computing


  • Résumé

    Indexes dynamic building for texts, linear sorting and n-grams retrieval. Using algebraic and statistical properties, for compression, deciphering, etc. Language Markov modelling and graphical representation. Estimation, testing hypothesis, homogeneity problem. Applying biological sequence analysis methods to discrimination between text sequences from different corpora, and to decode the underlying structure of an inhomogeneous text (e. G. With interpolations or written by several authors). Implementation of an hidden Markov model adapting Viterbi, forward, backward and Baum-Welch algorithms, to higher order variety.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 428 f.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 424-426

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Section Lettres, arts et sciences humaines.
  • Non disponible pour le PEB
  • Cote : 2002NICE2034
  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Section Lettres, arts et sciences humaines.
  • Disponible pour le PEB
  • Cote : 2002NICE2034
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.