Modèles contextuels et alphabets infinis en théorie de l'information

par Aurélien Garivier

Thèse de doctorat en Mathématiques

Sous la direction de Elisabeth Gassiat.

Soutenue en 2006

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Ce travail de thèse explore quelques aspects contemporains de la théorie de l'information allant de la théorie du codage à certains problèmes de choix de modèles. Nous y considérons d'abord le problème du codage de sources sans mémoire émettant dans un alphabet infini dénombrable. Comme il est impossible d' y apporter une solution générale, deux approches sont utilisées : nous établissons d'abord des conditions sous lesquelles le taux entropique peut être approché, et proposons alors un algorihme. Dans un second temps, il n'est posé aucune restriction sur la source, il est possible de fournir une solution partielle en codant seulement une partie de l'information (le motif) qui capture les répétitions contenues dans le message. Pour arriver à l'étude de processus plus complexes, nous revenons sur le cas de sources à mémoire finie sur un alphabet fini, qui a donné lieu a beaucoup de travaux, ainsi qu'à des algorithmes efficaces comme la Context Tree Weighting (CTW) Method. Nous prouvons ici que cet algorithme est également efficace sur une classe non paramétrique de sources à mémoire infinie : les sources de renouvellement. Nous montrons ensuite que les idées sous-jacentes à la méthode CTW permettent de construire un estimateur consistant de la structure de mémoire d'un processus quand celle-ci est finie : nous complètons l'étude de l'estimateur BIC pour les chaînes de Markov à longueur variable. Dans une dernière partie, il est montré qu'une telle approche est généralisable dans un cadre plus large de sources émettant dans un alphabet infini. On obtient ainsi des estimateurs consitants de l'ordre de chaînes de Markov cachées à émission poissonienne et gaussienne.

  • Titre traduit

    Contextual methods and infinite alphabets in information theory


  • Résumé

    This thesis explores some contemporary aspects of information theory, from source coding to issues of model selection. We first consider the problem of coding memoryless sources on a countable, infinite alphabet. As it is impossible to provide a solution which is both efficient and general, two approaches are considered: we first establish conditions under which the entropic rate can be reached, and we consider restricted classes for which tail probabilities are controlled. The second approach does not set any condition on the sources but provides a partial solution by coding only a part of the information - the pattern - which captures the repetitions in the message. In order to study more complex processes, we come back to the case of finite memory sources on a finite alphabet : it has given rise to many works and efficient algorithms like the Context Tree Weighting (CTW) Method. We show here that this method is also efficient on anon-parametric class of infinite memory sources: the renewal processes. We show then that the ideas on which CTW is based lead to a consistent estimator of the memory structure of a process, when this structure is finite. In fact, we complete the study of the BIC context tree estimator for Variable Length Markov Chains. In the last part, it is shown how similar ideas can be generalized for more complex sources on a (countable or not) infinite alphabet. We obtain consistent estimators for the order of hidden Markov models with Poisson and Gaussian emission.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (144 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 131-140

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2006)192
  • Bibliothèque : Bibliothèque Mathématique Jacques Hadamard (Orsay, Essonne).
  • Disponible sous forme de reproduction pour le PEB
  • Cote : GARI
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.