Thèse soutenue

Population d'ontologies automatisée, non supervisée et indépendante du domaine à partir de données non structurées

FR  |  
EN
Auteur / Autrice : Yohann Chasseray
Direction : Jean-Marc Le LannAnne-Marie Barthe
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/11/2021
Etablissement(s) : Toulouse, INPT
Ecole(s) doctorale(s) : École doctorale Systèmes (Toulouse ; 1999-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de génie chimique (Toulouse ; 1992-....)
Jury : Président / Présidente : Chihab Hanachi
Examinateurs / Examinatrices : Jean-Marc Le Lann, Anne-Marie Barthe, Chihab Hanachi, Stéphane Negny, Nicolas Perry, Bertrand Rose
Rapporteurs / Rapporteuses : Nejib Moalla, Mathieu Lafourcade

Résumé

FR  |  
EN

La complexification des systèmes industriels et sociaux, conjuguée à l'impact grandissant des perturbations internes comme externes sur ces derniers, a fait naître le besoin d'acquérir informations et connaissances relatives au domaine et au contexte dans lesquels ils évoluent pour assurer leur pilotage. Dans cette optique, la réunion des connaissances par consensus d'experts a mené dans de nombreux domaines à la construction d'ontologies qui peuvent être intégrées à des systèmes d'aide à la décision. Si ces ontologies formalisent à haut niveau les concepts d'un domaine et les relations que ceux-ci entretiennent entre eux, elles ne constituent pas à proprement parler une base de connaissances qui soit actionnable par un système d'aide à la décision. Ainsi, leur mise en oeuvre requiert une étape de population de l'ontologie, le plus souvent réalisée manuellement, à nouveau via des experts du domaine. Cette tâche se révèle fastidieuse et chronophage, freinant le déploiement à l’échelle industrielle de nombreuses ontologies développées durant les deux dernières décennies. Les travaux de cette thèse s'intéressent donc à la population automatisée non supervisée de ces ontologies à partir de données brutes dont la production augmente de façon exponentielle. Qu'elles soient structurées ou non, sous différents formats (XML, texte brut, document PDF), et de différents types (Web, bases de données, articles de presse, réseaux sociaux), ces sources de données sont autant de mines de connaissances qui permettent d'assister le pilotage d'un système complexe et de décrire le contexte dans lequel il évolue. Dans cette thèse, une approche employant l'ingénierie dirigée par les modèles est explicitée. L'objectif de cette approche est de réconcilier les données brutes non structurées avec les structures ontologiques, utilisées pour organiser et structurer la connaissance. Cette démarche est l'occasion de définir un métamodèle générique - c'est-à-dire autant indépendant du domaine d'application que de la source de données exploitée - pour l'extraction d'informations à partir de données non structurées. La spécification de cette stratégie pour les données textuelles s'est faite à travers une approche hybride mariant règles d'extraction syntaxiques et analyse sémantique. Elle a par ailleurs donné lieu au développement d'un prototype logiciel et à l'application de ce dernier à différents domaines (chimie organique, biochimie, gestion de crise civile) et à partir de différentes sources de données (articles et ouvrages scientifiques, articles issus de l'encyclopédie Wikipedia, articles de presse).