Thèse soutenue

Combinaison de classifieurs statistiques : application à la prédiction de la structure secondaire des protéines

FR  |  
EN
Auteur / Autrice : Yann Guermeur
Direction : Patrick Gallinari
Type : Thèse de doctorat
Discipline(s) : Sciences biologiques et fondamentales appliquées. Psychologie
Date : Soutenance en 1997
Etablissement(s) : Paris 6

Résumé

FR

La combinaison de modeles a permis ces dernieres annees des avancees significatives dans le domaine de l'apprentissage statistique, que ce soit en regression ou en reconnaissance des formes. Cependant, des questions essentielles sont demeurees pratiquement inexplorees. Ainsi, les criteres gouvernant le choix d'une methode particuliere sont mal definis et l'effet de la combinaison en discrimination n'a pas ete specifiquement mis en evidence. Cette these porte sur l'une des techniques de combinaison les plus utilisees : la regression lineaire. Dans un premier temps, nous caracterisons l'effet regularisant de la methode de stacked regression introduite par breiman. Nous etudions ensuite l'application du modele de regression lineaire multivariee au probleme de la combinaison d'experts discriminants estimant les probabilites a posteriori des classes. Cette question est traitee successivement sous l'angle de l'optimisation puis du controle de la complexite. La capacite du modele est mesuree au moyen de definitions generalisees de la dimension de vapnik-chervonenkis. L'etude se poursuit avec la presentation d'une methode non parametrique d'estimation de l'erreur de bayes. Notre modele de combinaison est evalue sur un probleme ouvert en traitement de sequences biologiques : la prediction de la structure secondaire des proteines globulaires. Pour realiser cette tache de discrimination, nous proposons une approche hierarchique et modulaire dans laquelle la combinaison intervient a un niveau intermediaire.