Thèse soutenue

Extraction objective et signifiante de motifs intéressants sur la base de leur fréquence

FR  |  
EN
Auteur / Autrice : Thomas Delacroix
Direction : Philippe Lenca
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 21/05/2021
Etablissement(s) : Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire : Equipe DECIDE - Département Logique des Usages, Sciences sociales et Sciences de l'Information - Laboratoire en sciences et techniques de l'information, de la communication et de la connaissance
Jury : Président / Présidente : Jérôme Azé
Examinateurs / Examinatrices : Philippe Lenca, Pascale Kuntz-Cosperec, Franck Vermet
Rapporteurs / Rapporteuses : Jean-Paul Haton, Gilbert Saporta

Résumé

FR  |  
EN

L'objet de cette thèse est l'étude des processus d'extraction d'informations objectives et intéressantes dans une base de données portant sur la fréquence de cooccurrence de différents attributs dans une population statistique (telles qu'utilisées en itemset mining notamment). On s'intéresse aux notions d’objectivité et de la signification des processus d'extraction. On relie la question de la signification d'un processus à celle de sa modélisation mathématique qui lui est sous-jacente, et on présente une étude détaillée des impacts, en terme de signification, des différents choix de modélisations que l'on peut opérer. Notre analyse fait ressortir la pertinence de l'utilisation de modèles de maximum d'entropie dans ces processus d'extraction. On présente une nouvelle construction mathématique de ces modèles, autour d'une notion d'indépendance contrainte, spécifiquement adaptée au contexte des itemsets. En s'appuyant sur cette construction et sur des outils de géométrie algébrique, on présente une approche exacte pour le calcul des modèles de maximum d'entropie.Enfin, en s'appuyant sur l'ensemble des recommandations sur la modélisation des processus d'extraction ainsi que sur la notion d'indépendance contrainte, on présente un nouvel algorithme d'extraction.