Thèse de doctorat en Génie informatique et automatique
Sous la direction de Marc Le Goc.
Soutenue en 2010
à Aix-Marseille 3 .
Cette thèse porte sur la découverte de connaissances temporelles à partir de données datées. Elle concerne le processus TOM4L, aacronyme de Timed Observations Mining for Learning. Le rôle du processus TOM4L est de découvrir un ensemble de connaissances temporelles caractérisant un processus dynamique uniquement connu à partir d'observations datées. Compte tenu de l'énormité de la taille de l'espace de recherche lié à la datation des données, le but de cette thèse est de doter le processus TOM4L d'une mesure permettant d'induire un ensemble minimal de relations binaires intéressantes et de les composer en relations n-aires susceptibles de représenter des propriétés du processus dynamique observé. Cette thèse propose deux contributions principales : un espace de description des algorithmes de fouille de données proposés dans la littérature, et un espace de description des mesures utilisées pour induire des relations à partir d'un ensemble de données. Ces deux espaces mettent en évidence la spécificité du processus TOM4L et le besoin d'une mesure informationnelle adaptée aux données datées. La seconde contribution porte sur la définition d'une telle mesure, appelée le BJ-Mesure, conçue à partir de l'adaptation d'une distance de Kullback-Liebler aux données datées émises par un canal de communication binaire sans mémoire. La BJ-mesure permet alors de fonder une mesure de l'entrelacement de deux suites d'observations datées qui approxime la conJonction dans le domaine temporel. Le caractère opérationnel de la BJ-mesure est montré à travers les connaissances découvertes par le processus TOM4L appliqué aux données datées générées par deux processus industriels particulièrement complexes, un haut-fourneau et un bain de galvanisation.
Contribution to dicovering temporal knowledge from timed data
This thesis is concerned with discovering temporal knowledge from timed data with the TOM4L process, acronym of Timed Observations Mining for learning. The role of TOM4L is to discover a set of temporal knowledge characterizing a dynamic process only known through the timed observations contained in a database. Given the huge size of the search space, the aim of this thesis is to provide to the TOM4L process a measure to induce a minimal set of interesting binary relations and to compose them in n-ary relations that may be representative of properties of the observed dynamic process. This thesis propose two main contributions : a space to describe the Data Mining algorithms that are proposed in the literature, and a space to describe the measures used to induce relations from a data set. These two spaces put in the light the specificity of TOM4L process and the need for an informational measure that is adapted with the timed data. The second contribution is concerned with such a measure, called the BJ-Measure, designed from the adaptation of a Kullback-Liebler distance with the timed data provided with a discrete memoryless binary channel. The BJ-Measure allows building a measure of the crisscross of two timed observation sequences that approximate the conjunction in the temporal domain. The operational flavour of the BJ-Measure is illustrated with the temporal knowledge discovered with TOM4L process when applied to the times data provided by two particularly complex industrial processes, a blast furnace and a galvanization bath.