Détection d'outliers : modéllsation et prédiction : application aux données de véhicules d'occasion

par Solohaja Faniaha Dimby

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Jean-Marc Bardet et de Joseph Rynkiewicz.

Soutenue le 21-12-2015

à Paris 1 , dans le cadre de École doctorale Sciences mathématiques de Paris centre (Paris) , en partenariat avec Laboratoire SAMM (Paris) (laboratoire) .

Le président du jury était Paul Doukhan.

Le jury était composé de Jean-Marc Bardet, Joseph Rynkiewicz, Daniel Urbah, Cécile Hardouin, Dominique Haughton.

Les rapporteurs étaient Fabrice Gamboa, Patrice Bertail.


  • Résumé

    La société Autobiz édite et diffuse de l’information sur le secteur automobile. Cette thèse contribue à l’enrichissement de cette information et à une meilleure compréhension du marché de l’occasion par l’élaboration des modèles de prédiction du prix des véhicules et du délai de vente qui leur est associé. Nous avons eu à notre disposition une base de données réelles constituée d’annonces de sources diverses induisant un nombre considérable d’outliers. Ainsi, la première partie de travail s’est consacrée à la construction de méthodes de détection d’outliers incluant aussi bien de simples règles empiriques qu’un test statistique dont les propriétés asymptotiques ont été étudiées. Partant d’un état de l’art sur la prédiction des prix des véhicules d’occasion, il est apparu que les études existantes soulèvent le besoin de fonder une méthodologie d’analyse plus rigoureuse. Cette méthodologie a été développée dans un objectif de proposer des solutions automatisables et adaptées aux contraintes imposées par les experts. Nous faisons alors l’hypothèse que les prix des véhicules d’une même version se déprécient en fonction de l’âge et du kilométrage selon une forme qui lui est propre. La dernière partie du travail est dédiée à l’analyse des délais de vente. Dans un premier temps, nous caractérisons la variable associée aux délais de vente. Ensuite nous proposons une modélisation de cette variable par une régression à l’échelle d’un segment correspondant à l’arborescence marque-modèle-carrosserie-énergie en fonction des variables liées au kilométrage, au prix et à l’âge. Enfin, nous discutons de la possibilité de modéliser le nombre de véhicules vendus dans une période donnée selon une loi binomiale négative.

  • Titre traduit

    Outliers detection : modelling and prediction : application to used cars dataset


  • Résumé

    Autobiz publishes information on the automotive sector. The subject of this the-sis is to give more tools for best understanding the used cars market by proposing modeling the price and the sale duration of vehicles. In our disposal we have a dataset consisted of used car advertisements automatically collected from the most popular website in France. Such data records often include outlying values. So, we need to start our analysis by considering outliers problem and we propose an outliers detector for univariate case for which we study asymptotic properties. Next, we develop a predicting model for used cars price. Although enumerable amount of works are stored in the literature we see that each of them lacks rigorous statistical foundations. We investigate the relationships between the price, the mileage, the age and others vehicle characteristics. More precisely we discuss how incorporate these variables in a model and compare different modeling approaches with the object to find the one best fitting the dataset and easy to implement. Expert’s opinions are minded at different stages of the model-building process. Next, we identify variables and how they affect the probability of a used vehicle’s sale from a list of explanatory variables related to price, mileage and age. In the sequel, we build a model allowing predicting the sale duration. Finally, we discuss about modeling sales of used cars by using the negative binomial distribution.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque Cujas de droit et de sciences économiques (Paris).
  • Bibliothèque : Bibliothèque électronique de l'université Paris 1 Panthéon-Sorbonne.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.