Intégration de données spatiales dans la modélisation des choix discrets : applications aux modèles de comportements d'achats des ménages français

par Sébastien Markley

Thèse de doctorat en Mathématiques. Statistiques

Sous la direction de Anne Ruiz-Gazen.

Soutenue en 2008

à Toulouse 1 .


  • Résumé

    The thesis was done in collaboration with the BVA Institute, a survey company that hoped to develop techniques of forecasting French spending based on data sets from their own consumer surveys. We developed a Conditional Logit model in order to predict the large surface stores chosen by each household, and used imputation in order to predict the products they chose. Since store choice was insensitive to household characteristics, the use of home-store distances and the geographic characteristics of store neighbourhoods was essential to our predictions. In the first chapter, we present Logit Models in general, and describe the data that we use to apply our modelling techniques. In the second chapter, we explore how we adapt the Conditional Logit model to choices of stores. Due to the fact that a choice of store has too many alternatives for estimation to be tractable, we test several modifications of our model that either reduce the size of each choice set, or that result from random draws of the alternatives. Since traditional evaluation methods based on likelihood were inappropriate for comparing these different techniques, we developed a criteria based on the model calibration to choose the best estimation technique. In the third chapter, we present the results of our estimations on our sample, presenting the technique that shows the best trade-off between predictive accuracy and cost of use. In the last chapter, we look at the use of imputation in order to predict product choice based on store choice.


  • Résumé

    Cette thèse CIFRE a été réalisée au sein de l’institut de sondage BVA. BVA développe des techniques de prédiction de la répartition des dépenses françaises à partir de bases de données de consommation. Dans ce cadre, nous avons construit un modèle Logit Conditionnel pour prédire les choix de magasins de grandes surfaces des ménages, puis utilisé les techniques d’imputation pour prédire les choix de produits de ces mêmes ménages. Nous montrons que les choix de magasins sont insensibles aux caractéristiques sociodémographiques des ménages. Par contre, l’utilisation des distances entre magasins et domiciles et les caractéristiques géographiques des voisinages des magasins sont essentielles pour la prédiction. Dans un premier chapitre, nous rappelons les principaux aspects des modèles Logit Conditionnels, et décrivons les données utilisées. Dans un deuxième chapitre, nous adaptons le Logit Conditionnel au problème traité. Nous explorons différentes pistes pour réduire la taille trop importante de l’ensemble de choix. Puis, après avoir étudié les propriétés des critères usuels d’évaluation de la prédiction dans les modèles de choix, nous proposons un autre critère basé sur la calibration du modèle. Dans un troisième chapitre, nous donnons une illustration à partir des données de l’enquête " Flux d’Achats " sur la Région Centre. Dans un dernier chapitre, nous utilisons les techniques d’imputation pour prédire les choix de produits selon les choix de magasins.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (278 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 273-278

Où se trouve cette thèse ?