Thèse soutenue

Modèles de mélanges topologiques pour la classification de données structurées en séquences

FR  |  
EN
Auteur / Autrice : Rakia Jaziri
Direction : Younès BennaniJean-Hugues ChenotMustapha Lebbah
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2013
Etablissement(s) : Paris 13
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Jury : Examinateurs / Examinatrices : Antoine Cornuéjols, Faicel Chamroukhi, Haytham Elghazel
Rapporteurs / Rapporteuses : Jean-Luc Zarader, Pierre Gançarski, Sylvie Thiria

Résumé

FR  |  
EN

Ces dernières années ont vu le développement des techniques de fouille de données séquentielles dans de nombreux domaines d’applications dans le but d’analyser des données temporelles, volumineuses et complexes. Dans le cadre de cette thèse, nous nous intéressons aux problèmes de classification et de structuration de données séquentielles, que nous proposons d’étudier à travers trois approches principales. Dans la première, il s’agit de mettre en oeuvre une nouvelle approche de classification topographique probabiliste dédiée aux données séquentielles, nous l’appellerons PrSOMS. Cette approche consiste à adapter la carte topographique déterministe à des séquences tout en s’appuyant sur les modèles de Markov cachés. On aboutit ainsi à une approche qui bénéficie du pouvoir de visualisation des SOM et de celui de structuration (modélisation) de séquences des HMM. Dans la deuxième, nous proposons une extension hiérarchique de l’approche PrSOMS. Cette approche permet de tirer partie de l’aspect complexe des données au sein du processus de classification. Nous avons constaté que le modèle obtenu ”H-PrSOMS” assure une bonne interprétabilité des classes construites. Dans la troisième, nous proposons une autre approche statistique topologique MGTM-TT, qui repose sur le même paradigme que celui des HMM. Il s’agit d’une modélisation générative topographique à densité d’observations mélanges, qui s’apparente à une extension hiérarchique du modèle GTM temporel. Ces propositions ont ensuite été appliquées à des données de test et à des données réelles issues de l’INA (Institut National de l’Audiovisuel). Dans le cas de l’INA, Ces approches consistent à proposer dans un premier temps une classification plus fine des segments audiovisuels diffusés. Puis, elles cherchent à définir une typologie des enchainements des segments (diffusion multiple d’un même programme, un programme entre deux inter-programme) afin de prévoir de manière statistique les caractéristiques des segments diffusés. La méthodologie globale offre ainsi un outil pour la classification et la structuration des données séquentielles.