Thèse soutenue

Indexation de bout-en-bout dans les bibliothèques numériques scientifiques

FR  |  
EN
Auteur / Autrice : Ygor Gallina
Direction : Béatrice DailleFlorian Boudin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 28/03/2022
Etablissement(s) : Nantes Université
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury : Président / Présidente : Richard Dufour
Examinateurs / Examinatrices : Josiane Mothe, Patrick Paroubek, Lorraine Goeuriot
Rapporteurs / Rapporteuses : Josiane Mothe, Patrick Paroubek

Résumé

FR  |  
EN

Le nombre de documents scientifiques dans les bibliothèques numériques ne cesse d’augmenter. Les mots-clés, permettant d’enrichir l’indexation de ces documents ne peuvent être annotés manuellement étant donné le volume de document à traiter. La production automatique de mots-clés est donc un enjeu important. Le cadre évaluatif le plus utilisé pour cette tâche souffre de nombreuses faiblesses qui rendent l’évaluation des nouvelles méthodes neuronales peu fiables. Notre objectif est d’identifier précisément ces faiblesses et d’y apporter des solutions selon trois axes. Dans un premier temps, nous introduisons KPTimes, un jeu de données du domaine journalistique. Il nous permet d’analyser la capacité de généralisation des méthodes neuronales. De manière surprenante, nos expériences montrent que le modèle le moins performant est celui qui généralise le mieux. Dans un deuxième temps, nous effectuons une comparaison systématique des méthodes états de l’art grâce à un cadre expérimental strict. Cette comparaison indique que les méthodes de référence comme TF#IDF sont toujours compétitives et que la qualité des mots-clés de référence a un impact fort sur la fiabilité de l’évaluation. Enfin, nous présentons un nouveau protocole d’évaluation extrinsèque basé sur la recherche d’information. Il nous permet d’évaluer l’utilité des mots-clés, une question peu abordée jusqu’à présent. Cette évaluation nous permet de mieux identifier les mots-clés importants pour la tâche de production automatique de motsclés et d’orienter les futurs travaux.