Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data | Theses.fr

Alice Coucke

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Modélisation statistique des séquences de protéines au-delà de la prédiction structurelle : inférence en haute dimension avec des données corrélées

FR |

EN

Auteur / Autrice :	Alice Coucke
Direction :	Rémi Monasson, Martin Weigt
Type :	Thèse de doctorat
Discipline(s) :	Physique statistique
Date :	Soutenance le 10/10/2016
Etablissement(s) :	Paris Sciences et Lettres (ComUE)
Ecole(s) doctorale(s) :	École doctorale Physique en Île-de-France (Paris ; 2014-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire de physique de l'ENS (Paris ; 2019-....)
	Etablissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
	Autre partenaire associé à la thèse : Université Pierre et Marie Curie (Paris ; 1971-2017)
Jury :	Président / Présidente : Olivier C. Martin
	Examinateurs / Examinatrices : Rémi Monasson, Martin Weigt, Olivier C. Martin, Andrea De Martino, Olivier Rivoire, Aleksandra Walczak
	Rapporteurs / Rapporteuses : Andrea De Martino, Olivier Rivoire

Mots clés

FR |

EN

Mots clés contrôlés

Physique statistique

Mots clés libres

Inférence

Apprentissage statistique

Régularisation

Entropie maximale

Ccoévolution des protéines

Modélisation statistique des séquences de protéines

Vraisemblance maximale

Champ moyen

Pseudo vraisemblance

Développement en grappe

Résumé

FR |

EN

Grâce aux progrès des techniques de séquençage, les bases de données génomiques ont connu une croissance exponentielle depuis la fin des années 1990. Un grand nombre d'outils statistiques ont été développés à l'interface entre bioinformatique, apprentissage automatique et physique statistique, dans le but d'extraire de l'information de ce déluge de données. Plusieurs approches de physique statistique ont été récemment introduites dans le contexte précis de la modélisation de séquences de protéines, dont l'analyse en couplages directs. Cette méthode d'inférence statistique globale fondée sur le principe d'entropie maximale, s'est récemment montrée d'une efficacité redoutable pour prédire la structure tridimensionnelle de protéines, à partir de considérations purement statistiques.Dans cette thèse, nous présentons les méthodes d'inférence en question, et encouragés par leur succès, explorons d'autres domaines complexes dans lesquels elles pourraient être appliquées, comme la détection d'homologies. Contrairement à la prédiction des contacts entre résidus qui se limite à une information topologique sur le réseau d'interactions, ces nouveaux champs d'application exigent des considérations énergétiques globales et donc un modèle plus quantitatif et détaillé. À travers une étude approfondie sur des donnéesartificielles et biologiques, nous proposons une meilleure interpretation des paramètres centraux de ces méthodes d'inférence, jusqu'ici mal compris, notamment dans le cas d'un échantillonnage limité. Enfin, nous présentons une nouvelle procédure plus précise d'inférence de modèles génératifs, qui mène à des avancées importantes pour des données réelles en quantité limitée.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modélisation statistique des séquences de protéines au-delà de la prédiction structurelle : inférence en haute dimension avec des données corrélées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modélisation statistique des séquences de protéines au-delà de la prédiction structurelle : inférence en haute dimension avec des données corrélées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses