L' apprentissage machine pour assister l'annotation de documents : clustering visuel interactif, apprentissage actif et extraction automatique des descripteurs

par Loïc Lecerf

Thèse de doctorat en Informatique

Sous la direction de Patrick Gallinari.

Soutenue en 2009

à Paris 6 .


  • Résumé

    Ce mémoire porte sur l’apprentissage machine pour l’annotation. L’objectif de l’annotation est d’insérer une information additionnelle à un objet (e. G. Images, documents, vidéos, données biologiques, etc. ). Ces informations permettent une meilleure compréhension ou organisation de ces objets par une machine. Alors que l’annotation manuelle est le plus souvent coûteuse, les travaux récents de la littérature proposent d’utiliser les méthodes d’apprentissage machine pour automatiser la tâche d’annotation. L’apprentissage machine a connu une progression très importante et son application à l’annotation a montré expérimentalement son efficacité pour de nombreux domaines. Au cours de notre travail de thèse, nous avons cherché à faire évoluer l’apprentissage machine afin de rendre son utilisation plus facile (définition des descripteurs et élaboration du corpus d’apprentissage) ou plus flexible afin de permettre à un utilisateur de s’impliquer et guider le processus d’apprentissage machine. Dans la première partie de ce mémoire, nous introduisons l’apprentissage machine interactif. Nous proposons plusieurs approches dans lesquelles nous combinons des outils de visualisation scientifique à l’apprentissage machine. Ces approches se présentent comme une alternative à l’apprentissage automatique, particulièrement pertinente lorsque le coût d’annotation ou le coût d’erreur de prédiction est élevé et lorsque l’utilisateur possède des connaissances du domaine utiles pour guider l’apprentissage machine. Dans une deuxième partie de nos travaux, nous avons cherché à réduire le travail de définition des descripteurs. Nous avons d’une part étudié et amélioré les méthodes pour la sélection automatique de grands ensembles de descripteurs génériques, puis nous avons proposé une nouvelle approche pour la génération automatique de ces descripteurs pour des données de type séquentielle. Notre travail de thèse a été motivé par la tâche spécifique d’annotation sémantique de documents semi-structurés. Nos travaux ont été évalués expérimentalement sur des collections de documents mais aussi sur d’autres ensembles de données issues de domaines divers. De même, afin de vérifier la pertinence de nos méthodes, nous avons déployé un prototype pour l’annotation sémantique de documents par apprentissage actif, ainsi qu’une application Web, pour l’annotation interactive

  • Titre traduit

    Interactif machine learning for document annotation : clustering visuel interactif, active learning and automative extraction of features


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (176 p.)
  • Annexes : Bibliogr. p. 163-176

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Sorbonne Université. Bibliothèque de Sorbonne Université. Bibliothèque Mathématiques-Informatique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2009 186
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.