Méthodes d’apprentissage statistique pour l’analyse prédictive du risque de crédit

par Guillaume Ausset

Projet de thèse en Mathématiques appliquées

Sous la direction de Stephan Clemencon et de Chloé Clavel.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) , S2A - Statistique et Apprentissage (equipe de recherche) et de Télécom Paris (établissement de préparation de la thèse) depuis le 15-01-2018 .


  • Résumé

    L’objectif de la thèse est de développer des techniques d’apprentissage de modèles prédictifs du risque de crédit permettant d’exploiter de nouvelles sources de données afin de définir une approche Point In Time pour une estimation plus performante des risques afférents. Ces sources originales de données incluent par exemple les messages Bloomberg ou Twitter, dont le caractère éventuellement prédictif sera exploré à travers le projet. Des statistiques sur le volume de news Bloomberg citant une société existent déjà, mais ne proposent pas de traitement qualitatif du message (positif ou négatif). Aussi les méthodes développées s’adapteront à la structure particulière des données, i.e., caractère séquentiel et multitâche, et grande dimension de l’espace des features. Le traitement de nouvelles sources de données par des méthodes appropriées permettra de créer de nouveaux signaux Point-In-Time pour élaborer des stratégies de hedging ou des stratégies d’investissement dans le marché de crédit et ceci en complément des ratings.

  • Titre traduit

    Machine learning methods for predictive credit risk analysis


  • Résumé

    The goal of the thesis is to develop machine learning approaches to credit risk prediction that make use of new sources of data, as well as define a Point-In-Time approach for a better performing estimation of the risks. Those new data sources include for example Bloomberg or Twitter messages, whose predictive power will be explored during this project. Some statistics on the volume of Bloomberg's news about a particular company already exist but they do not analyse the semantic meaning of the message (positive or negative for example). Consequently the methods developed will make use of the specific form of the data, i.e. its sequential and multitask nature as well as its high dimension. The analysis of these new sources of information by appropriate machine learning techniques will enable the creation of new Point-In-Time signals which could be used in hedging or investment strategies in the credit market in complement of ratings.