Contribution to the statistical analysis of compositional data with an application to political economy

par Thi Huong An Nguyen

Thèse de doctorat en Sciences économiques

Sous la direction de Christine Thomas-Agnan et de Anne Ruiz-Gazen.

Soutenue le 14-10-2019

à Toulouse 1 , dans le cadre de Toulouse School of Economics , en partenariat avec TSE-R (Toulouse) (laboratoire) .

  • Titre traduit

    Contribuation à l'analyse statistique de données de composition avec une application à l'économie politique


  • Résumé

    L’objectif de cette thèse est d’étudier le résultat d’élections et l’impact des facteurs socio-économiques sur les parts de vote dans le système multipartite d’un point de vue mathématique. Les votes de l’élection départementale en France en 2015 forment un vecteur appelé composition. Ainsi, le modèle de régression classique ne peut pas être utilisé directement pour modéliser ces parts de vote en raison de contraintes de données de composition. Au chapitre 2, nous présentons un modèle de régression dans lequel la variable dépendante est une variable de composition et les variables explicatives contiennent à la fois des variables classiques et des variables de composition. Nous analysons les impacts des facteurs socio-économiques sur l’issue de l’élection en prédisant les parts de vote en fonction d’une variable explicative classique ou d’une variable explicative de composition. Quelques techniques graphiques sont également présentées. Néanmoins, il serait plus judicieux d’interpréter les coefficients du modèle de régression sur le simplexe. Par ailleurs, certains auteurs montrent que les données électorales présentent souvent un comportement extrême. Nous proposons donc de remplacer la distribution Normale par la distribution de Student. Cependant, il existe deux versions de la distribution Student : la distribution Student non corrélée (UT) et la distribution Independent Student(IT). Dans la troisième partie, nous présentons un résumé complet de la distribution Student, comprenant les distributions Student univariée et multivariée, IT et UT à degrés de liberté fixes. Nous prouvons que l’estimateur de maximum de vraisemblance de la matrice de covariance dans le modèle UT est asymptotiquement biaisé. Nous fournissons également un algorithme itératif repondéré pour calculer l’estimateur du maximum de vraisemblance du paramètre du modèle IT. Une simulation est fournie et certains tests de Kolmogorov – Smirnov basés sur la distance de Mahalanobis sont effectués pour sélectionner le bon modèle. Cependant, cela ne fonctionne pas pour le modèle UT en raison d’une seule réalisation de n observations de la distribution multivariée. Enfin, nous étudions l’hypothèse d’indépendance statistique entre unités territoriales, qui peut être mise en doute du fait de l’autocorrélation spatiale potentielle des données de composition. Nous développons un modèle autorégressif spatial simultané pour les données de composition qui permet à la fois la corrélation spatiale et les corrélations entre équations en utilisant des méthodes de moindres carrés à deux étages et à trois étages. Nous présentons une étude de simulation pour illustrer ces méthodes. Une application à un ensemble de données de l’élection départementale française de 2015 est également présentée. Il reste encore du travail à faire pour surmonter le problème des zéros dans les parts de vote. Ce problème est déjà présent pour les élections départementales françaises au niveau cantonal lorsque l’on regroupe les partis électoraux en trois catégories. Cela aurait été encore plus grave si l’on considérait les partis politiques d’origine sans agrégation. En outre, une autre direction consiste à examiner la distribution multivariée de Student pour le modèle spatial.


  • Résumé

    The objective of this thesis is to investigate the outcome of an election and the impacts of the socio-economics factors on the vote shares in the multiparty system from mathematical point of view. The vote shares of the departmental election in France in 2015 form a vector called composition. Thus, the classical regression model cannot be used directly to model these vote shares because of contraints of compositional data. In Chapter 2, we present a regression model in which the dependent variable is a compositional variable and the set of explanatory variables contains both classical variables and compositional variables. We analyze the impacts of socio-economic factors on the outcome of the election through predicting the vote shares according to either a classical explanatory variable or a compositional explanatory variable. Some graphical techniques are also presented. However, it would be more appreciated to interpret the coefficients of regression model on the simplex. Furthermore, some authors show that electoral data often exhibit heavy tail behavior. Thus, we propose to replace the Normal distribution by the Student distribution. However, there are two versions of the Student distribution: the uncorrelated Student(UT) distribution and the independent Student (IT) distribution. In Chapter 3, we present a complete summary for the Student distributions which includes the univariate and multivariate Student, the IT and the UT distribution with fixed degrees of freedom. We prove that the maximum likelihood estimator of the covariance matrix in the UTmodel is asymptotically biased. We also provide an iterative reweighted algorithm to compute the maximum likelihood estimator of parameter of the IT model. A simulation is provided and some Kolmogorov–Smirnov tests based on the Mahalanobis distance are carried out to select the right model. However, this does not work for the UT model because of a single realization of n observation of the multivariate distribution. In Chapter 4, we apply the multivariate Student (IT) regression model to our political economy data. We then compare this model to the multivariate Normal regression model. We also apply the Kolmogorov–Smirnov tests based on the Mahalanobis distance which is proposed in chapter 3 to select a better model. Finally, we investigate the assumption of statistical independence across territorial units which may be questionable due to potential spatial autocorrelation for compositional data. We develop a simultaneous spatial autoregressive model for compositional data which allows for both spatial correlation and correlations across equations by using two-stage and three-stage least squares methods. We present a simulation study to illustrate these methods. An application to a data set from the 2015 French departmental election are also showed. There is still work to continue in the direction of overcoming the problem of zeros in vote shares. This problem is already present for the departmental French elections at the canton level when aggregating the electoral parties in three categories. It would have been even more serious when considering the original political parties with no aggregation. Besides, another direction consists in considering the multivariate Student distribution for a spatial model.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Toulouse 1 Capitole. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.