Apprentissage dans les espaces structurés : application à l'étiquetage de séquences et à la transformation automatique de documents

par Guillaume Wisniewski

Thèse de doctorat en Informatique

Sous la direction de Patrick Gallinari.

Soutenue en 2007

à Paris 6 .


  • Résumé

    De nombreux problèmes d'apprentissage consiste à prédire des séquences, des arbres ou des graphes. Contrairement aux problèmes de classification usuels, ces sorties sont structurées et se décomposent en un ensemble d'éléments étiquetés interdépendants. L'apprentissage structuré est domaine de l'apprentissage statistique proposé récément pour développer des méthodes d'apprentissage capables de découvrir et d'exploiter ces dépendances entre étiquettes pour améliorer les performances en prédiction. L'étude des différents cadres et méthodes d'apprentissage structuré constitue la première partie de cette thèse. Nous y décrivons notamment l'application de ces méthodes sur une tâche d'étiquetage de séquences et sur une tâche de prédiction d'arbres. Cette dernière tâche est directement motivée par la problématique générale d'automatisation de la transformation de documents structurés qui est, aujourd'hui, au cœur de plusieurs problématiques d'accès à l'information. Dans une deuxième partie de ce travail, nous nous sommes intéressé à deux limites des modèles existants qui rendent ceux-ci inapplicables à de nombreux problèmes pratiques~: leur complexité élevée et leur expressivité limitée qui ne leur permet de ne considérer que des dépendances locales. Nous proposons d'aborder ce problème sous l'angle de la sélection de caractéristiques et décrivons une méthode d'étiquetage de séquences représentant les dépendances par des contraintes, ce qui lui permet d'extraire efficacement les dépendances non locales et de les utiliser en inférence tout en conservant une complexité faible.

  • Titre traduit

    Strutured prediction : application to sequence labeling and document transformation


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (196 p.)
  • Annexes : Bibliogr. p. 179-196. 285 réf. bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie . Section Mathématiques-Informatique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2007 525
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.