Stratégies de data-minig proactives ou correctives

par Komlavi Vovor-Dassu

Projet de thèse en Biostatistique

Sous la direction de Gilles Ducharme et de Dialekti Valsamou.

Thèses en préparation à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec IMAG - Institut Montpelliérain Alexander Grothendieck (laboratoire) et de EPS - Equipe de Probabilités et Statistique (equipe de recherche) depuis le 02-10-2017 .


  • Résumé

    «La veuve de Carpentras a quitté la bourse » titrait Le Monde dans son édition du 27/02/2017, qui poursuivait : «Seuls 3 millions de Français sont encore actionnaires directs d'entreprises cotées, selon la dernière estimation publiée en novembre 2016 par Kantar TNS pour l'Autorité des Marchés Financiers (AMF). Leur nombre a été divisé par deux en dix ans, et ne cesse de diminuer. Si rien n'est fait, il risque bientôt de ne plus y en avoir du tout, ou presque, s'alarme Caroline de La Marnierre, dont l'agence Capitalcom tente de réveiller cette flamme » . La phrase en italique est le point de départ du projet de thèse en statistique proposé pour un financement CIFRE par l'entreprise SparkUp et l'IMAG. Concrètement, nous partons de variantes proactives comme : «Que faudrait-il faire pour modifier ce risque? » ou correctives : «Est-ce que, telle action pourrait mener à une modification de ce risque? » . Pour mener le lecteur vers la problématique envisagée dans le travail proposé, considérons le contexte où pour les individus d'une population, on doit prédire la survenue d'un événement souhaitable ou regrettable et quantifier son risque. Un exemple prototype est le cas où une institution bancaire doit décider si elle accorde un prêt à un client potentiel. Pour faire simple, la banque souhaite déterminer si celui-ci fait partie des «bons payeurs » , et remboursera le prêt sans difficulté ou des «mauvais payeurs » , et sera en défaut de paiement à un moment donné. L'appartenance d'un client au groupe des «bons » ou des «mauvais » payeurs{} ne peut être déterminée avec certitude qu'en accordant le prêt pour voir ce qu'il advient; auquel cas, si le client est «mauvais » , il est trop tard et une perte financière est encourue (le client se retrouve aussi dans une situation inconfortable). La banque aimerait donc disposer, au moment de la prise de décision, d'une mesure du risque de perte financière pour ce client. Cette problématique se retrouve aussi dans de nombreuses situations moins prototypiques: on souhaite l'évaluation, pour les individus d'une population donnée, des risques associés à certains états ou comportements avant la survenue d'un événement défavorable. Les solutions classiques à ce problème sont bien explorées. Pour réduire les risques de perte financière, les institutions bancaires ont appris à identifier un ensemble de variables dites de procuration (salaires, prêts en cours, charges familiales, etc.), disponibles au moment de la prise de décision, qui leur permettent de quantifier avec un niveau de confiance élevé le risque d'un événement regrettable et ainsi classer les clients potentiels dans le groupe des «bons » ou des «mauvais » payeurs. L'objet mathématique effectuant ce travail est un «classifieur » (parfois appelé «prédicteur » dans une variante du contexte). Typiquement, de tels objets mathématiques produisent, à partir des variables de procuration, une règle d'assignation à l'un des groupes et un score pour chaque individu. Ce score est lié à la probabilité d'appartenance à un groupe : si l'individu est classé dans le groupe des mauvais payeurs et/ou si son score dépasse un certain seuil, le prêt est refusé. Dans les situations moins prototypiques, la quantification des risques se fait également en fonction de variables de procuration qui sont souvent, du moins pour les applications considérées dans ce travail, un mélange de données publiques (open data), des données publiques extraites (social data) et des données privées; sur la base de l'information produite par le classifieur, une décision est prise. Dans la plupart des applications, une fois l'individu classé et la décision prise, les choses s'arrêtent là, du moins en ce qui concerne le travail statistique. Dans les cas où la décision est positive, la situation est «gagnant-gagnant » et le processus suit son cours au contentement de tous, sauf accident. Cependant, dans les cas où la décision est négative, la situation est au mieux «gagnant-perdant » et au moins une des parties sera menée à la question : «Que pourrait-on faire pour que cette décision négative puisse être réévaluée autrement? » . Et comme le classifieur s'appuie essentiellement sur les variables de procuration pour produire l'aide à la décision, cette question peut être reformulée de façon plus fructueuse en «Quelle(s) variable(s) de procuration pourrait-on modifier, et dans quel sens, pour que la décision soit positive? » . Le but est d'enrichir la démarche d'une feuille de route permettant de corriger les lacunes de l'individu, de le « coacher » vers une issue favorable.

  • Titre traduit

    Stategies for proactive or corrective data-mining


  • Résumé

    We propose to develop some statistical approaches for proactive data-mining that allow the coaching of an individual that was previously classified into an unfavorable category to migrate to an area were he will be better classified.