Sélection de variable : structure génétique d'une population et transmission de Plasmodium à travers le moustique

par Wilson Toussile

Thèse de doctorat en Mathématiques

Sous la direction de Elisabeth Gassiat et de Jean-Henri Gwet.

Soutenue en 2010

à Paris 11 en cotutelle avec l'Université de Yaoundé 1 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Dans cette thèse, nous considérons la question de sélection de variable dans deux deux problèmes pratiques. Le premier concerne une préoccupation très récurrente en génétique des populations qui consiste à regrouper les individus d'un échantillon d'organismes vivants dans des classes génétiquement homogènes sur la base d'informations procurées par un certain nombre de marqueurs génétiques. Nous supposons ne disposer d'aucune information a priori sur la population cible: il s'agit alors d'un problème de classification non supervisée. Par ailleurs, certaines variables peuvent ajouter du bruit à la classification. Nous proposons de résoudre simultanément le problème de sélection de variable et celui de sélection du nombre de composants du mélange dans une procédure de sélection de modèle. La sélection est ensuite faite via pénalisation du maximum de vraisemblance pénalisé. Sous des hypothèses faibles sur la fonction de pénalité, nous montrons que la procédure de sélection est consistante. Nous construisons ensuite une fonction de pénalité garantissant une inégalité oracle non-asymptotique. Bien que ce deuxième résultat ne soit pas directement utilisable, il suggère une pénalité de la forme du produit de la dimension des modèles en compétition et d'un paramètre données-dépendant que nous calibrons grâce à l'heuristique de la pente. Nous montrons sur des données simulées que cette calibration répond en partie au problème du choix du critère de sélection en fonction de la taille de l'échantillon. Le deuxième problème est motivé par le contrôle de la transmission de Plasmodium à travers son vecteur moustique. Nous disposons de données décrites par des variables diverses dont le nombre est de l'ordre de la taille de l'échantillon. Nous appliquons tout d'abord une procédure de sélection de variable qui repose sur l'importance des variables obtenues des forêts aléatoires. Les variables sélectionnées sont ensuite évaluées dans le modèle binomial négatif modifié en zéro.

  • Titre traduit

    Variable selection : population structure and transmission of Plasmodium through its vector mosquito


  • Résumé

    This thesis is concerned with variable selection in two practical problems. The first one is the identification of genetically homogeneous populations without prior information on the target population. The structure of interest may be contained in only a subset of available genetic markers. We propose a model selection procedure to simultaneously solve the two-fold problem of selection of the number of populations and the relevant subset of variable. The models in competition are compared using penalized maximum likelihood criteria. Under weak assumptions on the penalty function, we proved the consistency of the selection procedure. We also proposed a new penalty function with an associated non-asymptotic oracle inequality. Ln practice, this result suggests a penalty function defined up to a multiplicative parameter which is calibrated thanks to the slope heuristics. Using simulated data, we found that the calibration of the penalty term improves the perforrnances of the selection procedure with respect to classical asymptotic criteria such as AIC and BlC. Ln addition, we proposed a stand alone C++ package implementing our proposed selection procedure. The second problem is motivated by malaria control strategies aiming at reducing disease transmission intensity. The data we have at hand are described by variables of different types. Ln addition their number is of the order of the sample size. We considered a variable selection procedure based on the variable importances from random forests to face the variable selection problem. The selected variables are assessed in Zero Inflated Negative Binomial model.

Autre version

Cette thèse a donné lieu à une publication en 2011 par [CCSD] [diffusion/distribution] à Villeurbanne

Sélection de variable : structure génétique d'une population et transmission de Plasmodium à travers le moustique

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (173 p.)
  • Annexes : Bibliogr. p. 165-172

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2010)194
  • Bibliothèque : Bibliothèque Mathématique Jacques Hadamard (Orsay, Essonne).
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TOUS
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.