Thèse de doctorat en Mathématiques appliquées
Sous la direction de Guy Fayolle et de Bernard Bercu.
Soutenue en 2006
à Toulouse 3 .
Le système dynamique Chaos Game Representation associe à une suite de lettres dans un alphabet fini, une mesure empirique sur un ensemble. Fournit-elle plus d'information que les méthodes de comptage de mots classiques ? A partir d'une caractérisation basée sur la CGR, on propose une nouvelle famille de tests donnant l'ordre d'une chaîne de Markov homogène. On définit ensuite une construction d'arbres digitaux de recherche, inspirés par la CGR, en insérant successivement les préfixes retournés d'une chaîne de Markov. On montre que les longueurs des branches critiques se comportent, au premier ordre, comme si les séquences insérées étaient indépendantes entre elles. La dernière partie est consacrée à l'étude de la convergence presque sûre des moments normalisés de tout ordre de martingales vectorielles dans le théorème de la limite centrale presque sûr. Les résultats sont appliqués aux erreurs d'estimation et de prédiction dans les régressions linéaires et les processus de branchement.
Statistical investigation of biological sequences and convergence of martingales
The Chaos Game Representation is a dynamical system which maps a sequence of letters taken from a finite alphabet onto an empirical measure on a set. We show how the CGR can be used to characterize the order of an homogeneous Markov chain and to define a new family of tests. Then we propose a construction of Digital Search Trees, inspired from the CGR, by successively inserting all the returned prefixes of a Markov chain. We give the asymptotic behavior of the critical lengths of paths, which turns out to be, at first order, the same one as in the case of DST built from independent Markov chains. A last part deals with properties of almost sure convergence of vectorial martingales. Under suitable regularity conditions on the growing process, we establish the convergence of normalized moments of all orders in the almost sure central limit theorem. The results are applied to the cumulated errors of estimation and prediction in linear regression models and branching processes.
Cette thèse a donné lieu à une publication en 2007 par [CCSD] à Villeurbanne
Étude statistique de séquences biologiques et convergence de martingales