Thèse soutenue

Contribuation à l'analyse statistique de données de composition avec une application à l'économie politique

FR  |  
EN
Auteur / Autrice : Thi Huong An Nguyen
Direction : Christine Thomas-AgnanAnne Ruiz-Gazen
Type : Thèse de doctorat
Discipline(s) : Sciences économiques
Date : Soutenance le 14/10/2019
Etablissement(s) : Toulouse 1
Ecole(s) doctorale(s) : Toulouse School of Economics
Partenaire(s) de recherche : Laboratoire : TSE-R (Toulouse)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

L’objectif de cette thèse est d’étudier le résultat d’élections et l’impact des facteurs socio-économiques sur les parts de vote dans le système multipartite d’un point de vue mathématique. Les votes de l’élection départementale en France en 2015 forment un vecteur appelé composition. Ainsi, le modèle de régression classique ne peut pas être utilisé directement pour modéliser ces parts de vote en raison de contraintes de données de composition. Au chapitre 2, nous présentons un modèle de régression dans lequel la variable dépendante est une variable de composition et les variables explicatives contiennent à la fois des variables classiques et des variables de composition. Nous analysons les impacts des facteurs socio-économiques sur l’issue de l’élection en prédisant les parts de vote en fonction d’une variable explicative classique ou d’une variable explicative de composition. Quelques techniques graphiques sont également présentées. Néanmoins, il serait plus judicieux d’interpréter les coefficients du modèle de régression sur le simplexe. Par ailleurs, certains auteurs montrent que les données électorales présentent souvent un comportement extrême. Nous proposons donc de remplacer la distribution Normale par la distribution de Student. Cependant, il existe deux versions de la distribution Student : la distribution Student non corrélée (UT) et la distribution Independent Student(IT). Dans la troisième partie, nous présentons un résumé complet de la distribution Student, comprenant les distributions Student univariée et multivariée, IT et UT à degrés de liberté fixes. Nous prouvons que l’estimateur de maximum de vraisemblance de la matrice de covariance dans le modèle UT est asymptotiquement biaisé. Nous fournissons également un algorithme itératif repondéré pour calculer l’estimateur du maximum de vraisemblance du paramètre du modèle IT. Une simulation est fournie et certains tests de Kolmogorov – Smirnov basés sur la distance de Mahalanobis sont effectués pour sélectionner le bon modèle. Cependant, cela ne fonctionne pas pour le modèle UT en raison d’une seule réalisation de n observations de la distribution multivariée. Enfin, nous étudions l’hypothèse d’indépendance statistique entre unités territoriales, qui peut être mise en doute du fait de l’autocorrélation spatiale potentielle des données de composition. Nous développons un modèle autorégressif spatial simultané pour les données de composition qui permet à la fois la corrélation spatiale et les corrélations entre équations en utilisant des méthodes de moindres carrés à deux étages et à trois étages. Nous présentons une étude de simulation pour illustrer ces méthodes. Une application à un ensemble de données de l’élection départementale française de 2015 est également présentée. Il reste encore du travail à faire pour surmonter le problème des zéros dans les parts de vote. Ce problème est déjà présent pour les élections départementales françaises au niveau cantonal lorsque l’on regroupe les partis électoraux en trois catégories. Cela aurait été encore plus grave si l’on considérait les partis politiques d’origine sans agrégation. En outre, une autre direction consiste à examiner la distribution multivariée de Student pour le modèle spatial.