Thèse soutenue

Vers une capitalisation des connaissances orientée utilisateur : extraction et structuration automatiques de l'information issue de sources ouvertes

FR  |  
EN
Auteur / Autrice : Laurie Serrano
Direction : Maroua BouzidThierry CharnoisStéphan Brunessaux
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2014
Etablissement(s) : Caen
Ecole(s) doctorale(s) : École doctorale structures, informations, matière et matériaux (Caen1992-2016)
Partenaire(s) de recherche : Laboratoire : Groupe de recherche en informatique, image, automatique et instrumentation de Caen (1995-....)
Entreprise : EADS (France)
Jury : Président / Présidente : Gaël Dias
Examinateurs / Examinatrices : Maroua Bouzid, Thierry Charnois, Gaël Dias, Laurence Cholvy, Thierry Poibeau, Stéphan Brunessaux, Fatiha Saïs
Rapporteurs / Rapporteuses : Laurence Cholvy, Thierry Poibeau

Résumé

FR  |  
EN

Face à l’augmentation vertigineuse des informations disponibles librement (notamment sur le Web), repérer efficacement celles qui présentent un intérêt s’avère une tâche longue et complexe. Les analystes du renseignement d’origine sources ouvertes sont particulièrement concernés par ce phénomène. En effet, ceux-ci recueillent manuellement une grande partie des informations d'intérêt afin de créer des fiches de connaissance résumant le savoir acquis à propos d’une entité. Dans ce contexte, cette thèse a pour objectif de faciliter et réduire le travail des acteurs du renseignement et de la veille. Nos recherches s’articulent autour de trois axes : la modélisation de l’information, l'extraction d’information et la capitalisation des connaissances. Nous avons réalisé un état de l’art de ces différentes problématiques afin d'élaborer un système global de capitalisation des connaissances. Notre première contribution est une ontologie dédiée à la représentation des connaissances spécifiques au renseignement et pour laquelle nous avons défini et modélisé la notion d'événement dans ce domaine. Par ailleurs, nous avons élaboré et évalué un système d’extraction d’événements fondé sur deux approches actuelles en extraction d'information : une première méthode symbolique et une seconde basée sur la découverte de motifs séquentiels fréquents. Enfin, nous avons proposé un processus d’agrégation sémantique des événements afin d'améliorer la qualité des fiches d'événements obtenues et d'assurer le passage du texte à la connaissance. Celui-ci est fondé sur une similarité multidimensionnelle entre événements, exprimée par une échelle qualitative définie selon les besoins des utilisateurs.