Thèse soutenue

Modélisation statistique des probabilités d’évènements faisant l’objet d’un pari sportif : Théorie et applications au football, tennis et basketball

FR  |  
EN
Auteur / Autrice : Paul Steffen
Direction : Léo Gerville-Réache
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées et calcul scientifique
Date : Soutenance le 01/07/2022
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de l'intégration du matériau au système (Talence, Gironde)
Jury : Président / Présidente : Julien Morlier
Examinateurs / Examinatrices : Marie Chavent, Brigitte Gelein
Rapporteurs / Rapporteuses : Christophe Ley, Jean-Michel Marin

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

L’établissement de cotes pour un ensemble de paris sportifs passe, entre autres, par l’établissement de probabilité d’un ensemble d’évènements caractéristiques. Si l'on prend l'exemple d'un match de football, le score à la mi-temps est un évènement. Le score final est aussi un évènement (dépendant du score à la mi-temps). On peut également parier sur le buteur, l'équipe qui ouvre le score…Comme le montre les études préliminaires sur le thème de l’analyse et la prédiction sportive, depuis la moitié du XXème siècle, plus les données utilisées par ce modèle seront importantes, précises et pertinentes, plus l’estimation de la probabilité d’un évènement pourra être fiable.Avec le développement récent du volume de données, de leur accessibilité, et des moyens techniques permettant leur traitement, des données concernant les rencontres sportives passées, jusqu’alors très rarement utilisées, ont alors été collectées depuis 6 sites internet spécialisés dans la publication d’informations sur les résultats et les statistiques sportifs. Ainsi, une base de données structurée, concernant des rencontres datant de 1991 à 2018, a été créée.Une fois les données collectées, ces dernières ont été nettoyées, vérifiées et formatées afin d’en faire un ensemble de données utilisable. Du fait qu’elles proviennent de différentes sources, il a été nécessaire de joindre les données entre elles, à l’aide d’index en commun, construits sur la proximité syntaxique des observations.A l’aide des avancées proposées dans le domaine de l’analyse sportive, les données brutes ont pu être transformées en features représentant plus précisément le problème sous-jacent. Ainsi, les expected goals, les box-scores ou les points elo, qui sont des métriques spécialisées dans le domaine étudié, permettent une amélioration considérable de la performance du modèle.Face au problème de la modélisation de la probabilité d’un évènement sportif, les algorithmes de classification supervisée capables de prédire une distribution de probabilité sur un ensemble de classes, plutôt que d’afficher uniquement la classe la plus probable, pour une observation donnée, ont été utilisés:bold hat y = arg max_bold y Pr( bold Y =bold y divides bold X ) forall bold y in bold YAinsi, on peut avoir un certain niveau de confiance sur la survenue de l’ensemble des évènements sportifs, et ne pas s’intéresser uniquement à l’évènement le plus probable. De plus, c’est toujours cette distribution de probabilité, qui va être utilisée pour comparer les modèles entre eux, à l’aide de métriques d’évaluation adaptées:Loss = sum from{i=0} to{I-1} sum from{j=0} to{J-1} f( y_ij, p_ij )où pij est la probabilité produite pour l’observation i d’être dans la classe j et yij est la variable indiquant la réalisation ou non de l’évènement.Dans l’objectif de minimiser cette fonction de perte, représentant la performance du modèle, les features ont été sélectionnées et les hyper-paramètres du modèle ajustés, suite à une division des données en plusieurs échantillons, afin de simuler une utilisation du modèle selon laquelle les probabilités puissent être proposées avant le début de chaque rencontre.Suite à une comparaison avec d’autres bookmakers, la qualité avérée des résultats permet à Betclic de proposer des cotes pertinentes concernant l’issue des rencontres de tennis, de basketball et de football. La déclinaison sur des évènements plus fins, tel que le score exact, est également possible.