Méthodes d'estimation et d'estimation de variance pour une enquête longitudinale : application aux données de l'Etude Longitudinale Française depuis l'Enfance (Elfe)

par Hélène Juillard

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Anne Ruiz-Gazen et de Guillaume Chauvet.

Soutenue le 28-11-2016

à Toulouse 1 , dans le cadre de École Doctorale Mathématiques, Informatique et Télécommunications (Toulouse) , en partenariat avec École d'économie de Toulouse (équipe de recherche) .


  • Résumé

    Dans ce document, on suppose que l’aléa provient du tirage de l’échantillon (inférence basée sur le plan de sondage). Chaque échantillonnage conduit à une variance dite d’échantillonnage. Après déroulement d’une enquête, l’estimation de cette variance va servir de mesure de précision (ou d’incertitude) pour les estimateurs des paramètres étudiés. La cohorte Elfe, démarrée en 2011, comprend plus de 18 000 enfants dont les parents ont donné leur consentement à l’inclusion. Dans chacune des maternités sélectionnées, les nourrissons de la population d’inférence nés durant quatre périodes spécifiques représentant chacune des quatre saisons de l’année 2011 ont été sélectionnés. Elfe est la première étude longitudinale de ce type en France, suivant les enfants de leur naissance à l’âge adulte. Elle aborde les multiples aspects de la vie de l’enfant sous l’angle des sciences sociales, de la santé et de la santé-environnement. La cohorte Elfe a été sélectionnée selon un plan de sondage non standard appelé échantillonnage produit, avec les sélections indépendantes d’un échantillon de maternités et d’un échantillon de jours. Le suivi de l’enfant commence dès ses premiers jours, à la maternité. Ensuite, lorsque les enfants fêtent leurs deux mois, les parents sont contactés pour un premier entretien téléphonique, puis au premier anniversaire des enfants, à leurs deux ans, 3 ans et demi et cinq ans et demi. L’enquête est longitudinale. Le premier chapitre de cette thèse introduit des notions relatives à la théorie des sondages et présente l’enquête Elfe (Etude Longitudinale Française depuis l’Enfance) ; ses données serviront d’illustration aux résultats théoriques issus de cette thèse. Le deuxième chapitre porte sur le plan produit et propose dans un cadre théorique général des estimateurs sans biais et des estimateurs simplifiés de variance pour traiter ce plan. Il est aussi montré que ce plan est en général moins efficace que celui classique à deux degrés d’échantillonnage. Le chapitre trois est en continuité avec le précédent : pour le plan produit, cinq estimateurs sans biais de type Yates-Grundy sont proposés à partir de cinq différentes décompositions possibles de la variance. Le chapitre quatre est un article permettant au lecteur de différencier le plan produit du plan à deux degrés, et de mettre en pratique les étapes d’échantillonnage et d’estimation sous les logiciels R, SAS et Stata. Le chapitre cinq est lui, consacré à la variance et l’estimation de la variance pour une enquête de type cohorte avec processus de non-réponse monotone. Le chapitre six est un rapport méthodologique pour les utilisateurs où l’estimation de la variance appropriée au plan Elfe est expliquée et mise en œuvre avec les logiciels R, SAS et Stata. Tous les résultats des études par simulation présentés dans ce document sont reproductibles, les codes étant proposés en annexe.

  • Titre traduit

    Methods of estimation and variance estimation for a longitudinal survey : Application of the ELFE survey


  • Résumé

    In this document, we are interested in estimation under a design-based framework, where the randomness arises from the sample selection. Each sampling leads to a sampling variance. After the survey, the estimation of this variance will serve as a measure of precision (or uncertainty) for the estimators of the parameters under study. The 2011 ELFE cohort comprises more than 18,000 children whose parents consented to their inclusion. In each of the selected maternity units, targeted babies born during four specific periods representing each of the four seasons in 2011 were selected. ELFE is the first longitudinal study of its kind in France, tracking children from birth to adulthood. It will examine every aspect of these children’s lives from the perspectives of health, social sciences and environmental health. The ELFE cohort was selected through a non-standard sampling design that is called cross-classified sampling, with independent selections of the sample of maternity units and of the sample of days. In this work, we propose unbiased variance estimators to handle this type of sampling designs, and we derive specific variance estimators adapted to the ELFE case. Tracking of the babies starts when they are just a few days old and still at the maternity unit. When the children reach the age of two months, the parents are contacted for the first telephone interview. When the children are one year old, and again when they reach the ages of two, three and a half years and five and a half years, their parents will once more be contacted by telephone. The survey is longitudinal.The first chapter of this thesis introduces concepts related to the theory of survey design and presents the survey ELFE (French Longitudinal Study from Childhood); its data will be used as illustration for the theoretical results derived in this thesis. The second chapter focuses on the cross-classified design and provides unbiased estimators and simplified variance estimators to treat this design in a general theoretical framework. It is also shown that this design is generally less efficient than the conventional two-stage sampling design. Chapter three is in continuity with the previous one : for the cross-classified sampling design, five unbiased Yates-Grundy like variance estimators are available from five different possible decomposition of the variance. Chapter four is an article allowing the reader to make the difference between the cross-classified sampling design and the two-stage sampling design, and to implement the steps of sampling and estimation under the softwares R, SAS and Stata. Chapter five is devoted to variance computation and variance estimation for a cohort survey with monotone non-response. Chapter six is a methodological report to users in which the appropriate variance estimation for the ELFE design is explained and implemented with softwares R, SAS and Stata. All the results of simulation studies presented in this document are reproducible, the codes being proposed in the annex.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.