Indexation de bout-en-bout dans les bibliothèques numériques scientifiques

Ygor Gallina

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Ygor Gallina
Direction :	Béatrice Daille, Florian Boudin
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 28/03/2022
Etablissement(s) :	Nantes Université
Ecole(s) doctorale(s) :	École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche :	Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury :	Président / Présidente : Richard Dufour
	Examinateurs / Examinatrices : Josiane Mothe, Patrick Paroubek, Lorraine Goeuriot
	Rapporteurs / Rapporteuses : Josiane Mothe, Patrick Paroubek

Mots clés

FR

Mots clés contrôlés

Medical Subject Headings

Bibliothèques scientifiques

Moteurs de recherche

Thésaurus

Indexation automatique

Mots clés libres

Évaluation extrinsèque

Résumé

FR |

EN

Le nombre de documents scientifiques dans les bibliothèques numériques ne cesse d’augmenter. Les mots-clés, permettant d’enrichir l’indexation de ces documents ne peuvent être annotés manuellement étant donné le volume de document à traiter. La production automatique de mots-clés est donc un enjeu important. Le cadre évaluatif le plus utilisé pour cette tâche souffre de nombreuses faiblesses qui rendent l’évaluation des nouvelles méthodes neuronales peu fiables. Notre objectif est d’identifier précisément ces faiblesses et d’y apporter des solutions selon trois axes. Dans un premier temps, nous introduisons KPTimes, un jeu de données du domaine journalistique. Il nous permet d’analyser la capacité de généralisation des méthodes neuronales. De manière surprenante, nos expériences montrent que le modèle le moins performant est celui qui généralise le mieux. Dans un deuxième temps, nous effectuons une comparaison systématique des méthodes états de l’art grâce à un cadre expérimental strict. Cette comparaison indique que les méthodes de référence comme TF#IDF sont toujours compétitives et que la qualité des mots-clés de référence a un impact fort sur la fiabilité de l’évaluation. Enfin, nous présentons un nouveau protocole d’évaluation extrinsèque basé sur la recherche d’information. Il nous permet d’évaluer l’utilité des mots-clés, une question peu abordée jusqu’à présent. Cette évaluation nous permet de mieux identifier les mots-clés importants pour la tâche de production automatique de motsclés et d’orienter les futurs travaux.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Indexation de bout-en-bout dans les bibliothèques numériques scientifiques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Indexation de bout-en-bout dans les bibliothèques numériques scientifiques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses