Thèse soutenue

Plus longues sous-séquences de mots aléatoires : limites, variance, et statistiques quantiques.

FR  |  
EN
Auteur / Autrice : Clément Deslandes
Direction : Karim LouniciChristian Houdré
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 15/12/2023
Etablissement(s) : Institut polytechnique de Paris en cotutelle avec Georgia institute of technology
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre de mathématiques appliquées (Palaiseau, Essonne) - Centre de Mathématiques Appliquées - Ecole Polytechnique
Jury : Président / Présidente : Cristina Butucea
Examinateurs / Examinatrices : Karim Lounici, Christian Houdré, Charles Bordenave, Jean-Christophe Breton, Pierre-Loïc Méliot, Michael Damron
Rapporteurs / Rapporteuses : Charles Bordenave, Jean-Christophe Breton

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Dans ce travail, nous considérons des problèmes de mots aléatoires et leurs applications. Un mot aléatoire de longueur n est une suite finie de variables aléatoires i.i.d. à valeurs dans un ensemble fini appelé alphabet (par exemple, une suite de lancers de pièces FPPPFPPF est un mot aléatoire de longueur 8). Le point de départ est le problème suivant: étant donné deux mots aléatoires, "qu'ont-ils en commun"? Le problème d'analyser la ressemblance entre deux mots aléatoires a émergé indépendamment dans de nombreux domaines, notamment l'informatique, la biologie, la linguistique...Malheureusement, peu de choses ont été démontrées sur ce problème fondamental de la longueur maximale d'une sous-séquence commune (notée LCS): la distribution limite, et même le comportement asymptotique de la variance, ne sont pas connus. Cependant, en modifiant légèrement le problème, il devient plus simple de trouver la distribution limite: le premier chapitre de notre travail est dédié à la limite en distribution de la longueur maximale des sous-séquences communes et croissantes. Cela signifie que l'on considère un alphabet ordonné, disons 1,...,m, et les sous-séquences qui sont simplement faites d'un bloc de 1's, suivi d'un bloc de 2's, ... et ainsi de suite (la sous-séquence est croissante, mais pas strictement). Dans ce cadre, nous sommes capable de donner la distribution limite, ainsi que le comportement asymtpotique de l'espérance et la variance.Dans le chapitre deux, nous nous intéressons au problème de la variance de LCS. Déterminer si la variance est asymptotiquement linéaire en n est un problème ouvert important. En introduisant des outils plus généraux, des résultats partiels pour la variance de LCS sont obtenus. Pour des fonctions de variables aléatoires indépendantes, diverses bornes supérieures et inférieures sont étudiées dans différents cadres. Elles sont ensuite appliquées au cas Bernoulli, Gaussien, indéfiniment divisible et à des variables aléatoires à valeurs dans un espace de Banach. Les méthodes vont du jackknife aux semi-groupes. De nouvelles applications sont présentées, permettant de retrouver et améliorer, en particulier, tous les encadrements connus de la variance de la longueur des plus longs sous-mots communs de deux mots aléatoires.Dans le troisième et dernier chapitre, nous considérons la longueur maximale d'une sous-séquence croissante (notée LIS) d'un seul mot aléatoire, et le lien étonnant avec les statistiques quantiques. En effet, estimer le spectre d'une matrice de densité d'un système quantique à partir de n copies de ce système équivaut à estimer la distribution des lettres d'un mot de longueur n étant donné la forme de son tableau obtenu par l'algorithme Robinson–Schensted–Knuth (RSK). Ainsi, nous étudions quelques aspects de la convergence en distribution des tableaux RSK associés à des mots aléatoires, obtenant des vitesses de convergence pour la distance de Kolmogorov. Puisque la longueur de la première ligne du tableau est LIS, une vitesse de convergence est donnée dans ce cas. Nous donnons ensuite des résultats sur deux estimateurs du spectre, avec des simulations numériques tendant à montrer que leur risque est inférieur à celui de l'estimateur "diagramme de Young empirique". Nous prouvons ensuite une nouvelle borne pour la somme des variances d'un diagramme de Young, et enfin, nous prouvons une borne sur "l'excès" d'un diagramme de Young avec une chaîne de Markov.