Thèse en cours

Amélioration des méthodes de recherche d'information dans des documents complexes et multimodaux

FR  |  
EN
Auteur / Autrice : Manuel Faysse
Direction : Céline Hudelot
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 20/02/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Interfaces : matériaux, systèmes, usages (Palaiseau, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Mathématiques et Informatique pour la Complexité et les Systèmes - EA 4037
référent : CentraleSupélec (2015-....)

Résumé

FR  |  
EN

Le sujet de la recherche d'information est étudié dans la littérature avec de récentes avancées dans la génération de représentations précises et pertinentes, représentant des objets de modalités variées. Il subsiste néanmoins d'importantes zones inexplorées dans ce domaine, lorsque l'on s'éloigne quelque peu des évaluations de ces systèmes dans des cadres et sur des benchmarks académiques. D'une part, il est très rare qu'une information soit présente de manière auto-portante à un seul endroit d'un unique document. L'intégration du contexte proche des paragraphes pertinents, du type et de la structure des documents du corpus, de la redondance de cette information au sein d'autres endroits du corpus sont autant d'éléments-clés qu'un humain peut exploiter pour fournir une réponse précise et confiante à une requête arbitraire. Ces éléments sont souvent délaissés dans les systèmes étudiés. L'utilisation de la Théorie de l'Information et d'estimateurs de l'Information Mutuelle [Pichler, 2022, Colombo, 2021] ou d'autres mesures de similarité [Colombo, 2022] pourront être explorées pour tirer parti du contexte. D'autre part, dans des documents réels, différentes entités contenant des informations se côtoient et se complémentent (texte, tableaux, schémas, images) et il est loin d'être trivial de les exploiter de manière jointe et efficace [Garcia, 2019, Colombo, 2022]. Il subsiste également de gros challenges quant aux divergences entre les distributions de données utilisées lors de l'entraînement des modèles et les données réelles auxquelles les modèles font face (domain shift), et l'intégration de feedback humain, pendant l'entraînement ou l'inférence, dans le développement de systèmes de la recherche d'information (hors moteur de recommandations) est un sujet très peu exploré [Wu, 2022]. Enfin, la majorité des données et méthodes disponibles dans la littérature sont en langue anglaise. Un enjeu important est de réussir à pousser des innovations dans des langues où moins de ressources existent, en exploitant les mécanismes de l'apprentissage auto-supervisé ou faiblement supervisé, en explorant les mécanismes de transfert de connaissances depuis d'autres langues, en proposant des mécanismes indépendants de la langue, etc.