Thèse soutenue

Proposition d'un système de recherche d'information dans un environnement numérique distribué et hétérogène : application à l'industrie manufacturière

FR  |  
EN
Auteur / Autrice : Lise Kim
Direction : Philippe VéronFrédéric Segonds
Type : Thèse de doctorat
Discipline(s) : Génie industriel (AM)
Date : Soutenance le 28/10/2021
Etablissement(s) : Paris, HESAM
Ecole(s) doctorale(s) : École doctorale Sciences des métiers de l'ingénieur
Partenaire(s) de recherche : Laboratoire : LISPEN - LISPEN
établissement de préparation de la thèse : École nationale supérieure d'arts et métiers (1780-....)
Jury : Président / Présidente : Frédéric Noël
Examinateurs / Examinatrices : Philippe Véron, Frédéric Segonds, Sebti Foufou, Hervé Panetto, Nadège Troussier, Esma Sioud, Benjamin Deguilhem
Rapporteurs / Rapporteuses : Sebti Foufou, Hervé Panetto

Résumé

FR  |  
EN

La valorisation du patrimoine informationnel dans l’entreprise de l’industrie manufacturière est un enjeu important. Elle permet la prise de décisions éclairées et de détecter de nouvelles opportunités à valeur ajoutée. Lorsqu’il est retranscrit numériquement, ce patrimoine informationnel est composé de données hétérogènes et distribuées dans les différents silos de l’entreprise rendant la vision holistique de l’information difficile. La thèse propose d’accéder à l’information hétérogène et distribuée de l’entreprise par un système de recherche d’information. L’originalité de la proposition consiste à considérer et modéliser l’ensemble des données structurées et non structurées de l’entreprise dans un graphe unique. D'autre part, la recherche d'information est exprimée par une requête composée de deux variables, le 'quoi' et le 'à propos de quoi' et permet de fournir en résultat une liste de documents ou enregistrements, une liste de valeurs de propriétés ou une liste de phrases. L’application de l’approche sur un cas d’étude a permis de détecter une liste d’enjeux clés à traiter pour améliorer les critères de performances usuels en recherche d’information, à savoir sa capacité à fournir tous les résultats pertinents (le rappel) et uniquement des résultats pertinents (la précision). Les quatre enjeux à considérer sont : (i) le traitement des spécificités syntaxiques des données, (ii) l’extension sémantiquement des termes utilisés dans la recherche, (iii) le filtrage les résultats peu pertinents et (iv) la détection de liens implicites entre les données. Un enrichissement de la proposition est alors proposé pour répondre à l'ensemble de ces enjeux comprenant notamment la transformation des tableaux dans les documents non structurés en graphe, une extension sémantique des termes de la recherche grâce à un graphe de connaissance ainsi que des filtrages complémentaires pour l'évaluation de la pertinence des résultats. Enfin, l’approche ainsi enrichie est confrontée à un second cas d’étude afin de valider la proposition.