Thèse soutenue

Connaissances du domaine et fonctions en science des données, application à la production d'hydroélectricité

FR  |  
EN
Auteur / Autrice : Pierre Faure-Giovagnoli
Direction : Vasile-Marian ScuturiciJean-Marc Petit
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 24/11/2023
Etablissement(s) : Lyon, INSA
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche : Membre de : Université de Lyon (2015-....)
Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS
Equipe de recherche : BD - Base de Données
Jury : Président / Présidente : Pierre Senellart
Examinateurs / Examinatrices : Vasile-Marian Scuturici, Jean-Marc Petit, Pierre Senellart, Themis Palpanas, Sihem Amer-Yahia, Marius Bozga, Frédérique Laforest
Rapporteurs / Rapporteuses : Themis Palpanas, Sihem Amer-Yahia

Résumé

FR  |  
EN

Dans cette thèse, nous étudions le lien entre la connaissance métier sous la forme d'une fonction et la science des données. Considérons le scénario suivant. Soit D(y,z1,...,zn) un ensemble de données, Alice une experte en science des données, Bob un expert du domaine et y=f(z1, ..., zn) une fonction connue de Bob grâce à ses connaissances métier. Dans cette thèse, nous nous intéressons aux questions suivantes, simples mais cruciales pour Alice. Comment définir la satisfaction de f dans D ? Comment mesurer efficacement cette satisfaction ? Comment cette satisfaction est-elle liée à la tâche d'apprentissage supervisé consistant à apprendre f à partir de D ? Il s'avère que ces problèmes sont liés à l'étude des contre-exemples par l'utilisation des dépendances fonctionnelles (DF) et, en particulier, des mesures permettant de quantifier la satisfaction des DFs dans un ensemble de données telles que l'indicateur g3. Plus précisément, nous considérons le cas où l'égalité est remplacée par des prédicats plus flexibles, une relaxation maintenant courante dans la littérature. Premièrement, nous examinons la complexité du calcul du g3. Il est connu que g3 peut être calculé en temps polynomial lorsqu'on utilise l'égalité, alors qu'il devient NP-difficile lorsqu'on utilise des prédicats généraux. Nous proposons d'affiner cette dichotomie en étudiant l'impact des propriétés communes suivantes : réflexivité, transitivité, symétrie et antisymétrie. Nous montrons que la symétrie et la transitivité sont suffisantes pour garantir que l'erreur g3 puisse être calculée en temps polynomial. Cependant, la suppression de l'une d'entre elles rend le problème difficile. Deuxièmement, nous étudions le calcul de g3 dans les cas polynomial et NP-difficile identifiés dans la première partie. Nous proposons différentes solutions exactes et approximées pour le calcul de g3 dans les deux cas. Nous comparons ces solutions dans une étude expérimentale détaillée des performances temporelles et d'approximation. Tous les algorithmes sont également disponibles via fastg3, une librairie Python open-source implémentée en C++. Troisièmement, nous connectons l'étude des contre-exemples et l'indicateur g3 à l'apprentissage supervisé à l'aide d'une application web appelée ADESIT. ADESIT est destinée à faire partie d'un processus itératif de raffinement des données juste après la sélection des données et juste avant le processus d'apprentissage lui-même. Elle permet d'évaluer la capacité d'un ensemble de données à donner de bons résultats pour un problème d'apprentissage supervisé par le biais de statistiques et d'une exploration visuelle. Enfin, nous validons notre approche par une application au problème industriel de la surveillance de l'entrefer dans les générateurs hydrauliques compacts et développons une solution pour le traitement automatique des données enregistrées.