Thèse soutenue

Extraction des motifs contraints dans des données bruitées

FR  |  
EN
Auteur / Autrice : Karima Mouhoubi
Direction : Céline RouveirolLucas Létocart
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2013
Etablissement(s) : Paris 13
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
Jury : Examinateurs / Examinatrices : Jean-François Boulicaut, Younès Bennani
Rapporteurs / Rapporteuses : Clarisse Dhaenens, Mohamed Nadif

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Nous abordons dans cette thèse le problème difficile de l'extraction de motifs contraints dans des données booléennes bruitées. La fouille de motifs ensemblistes contraints dans des matrices binaires consiste à rechercher des rectanges de 1 dans une matrice de données à valeurs dans {0,1} qui satisfont un ensemble de contraintes (fréquence, aire, etc. ). Cependant, dans des applications réelles les données sont souvent bruitées. Un des effets du bruit est de "pulvériser" un motif pertinent en un ensemble de sous-motifs recouvrants et peu pertinents, entraînant une explosion du nombre de résultats. Nous avons proposé dans cette thèse des approches heuristiques originales qui combinent des algorithmes de fouilles de données et des algorithmes de graphes. Ces méthodes sont fondées sur des algorithmes de flot maximal/coupe minimale pour rechercher des sous graphes denses maximaux qui peuvent se recouvrir dans un graphe biparti pondéré et augmenté associé à la matrice des données. Notre dernière contribution consiste en une approche semi-supervisée qui exploite des connaisssances (sur l'une des dimensions ou les deux simultanément) exprimées sous forme de classifications pour guider le processus d'extraction. Cette orientation est assurée par un mécanisme d'adaptation des poids lors de l'extraction itérative des sous graphes denses. Aucune contrainte n'est imposée sur les classifications et peuvent être incomplètes. Pour évaluer la pertinence et exploiter les résultats extraits par nos approches, différents tests ont été réalisés sur des données synthétiques, ainsi que sur des données réelles isssues d'applications bioinformatiques de levure et humaines.