Thèse soutenue

La structuration dans les entités nommées

FR  |  
EN
Auteur / Autrice : Yoann Dupont
Direction : Isabelle Tellier
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 23/11/2017
Etablissement(s) : Sorbonne Paris Cité
Ecole(s) doctorale(s) : École doctorale Langage et langues (Paris)
Partenaire(s) de recherche : établissement de préparation : Université de la Sorbonne Nouvelle (Paris ; 1970-....)
Entreprise : Expert System France
Laboratoire : Langues, textes, traitements informatiques, cognition (Montrouge, Hauts de Seine)
Jury : Président / Présidente : Frédéric Landragin
Examinateurs / Examinatrices : Isabelle Tellier, Frédéric Landragin, Agata Savary, François Yvon, Christian Lautier, Marco Dinarelli, Pascale Sébillot, Patrick Watrin
Rapporteurs / Rapporteuses : Agata Savary, François Yvon

Résumé

FR  |  
EN

La reconnaissance des entités nommées et une discipline cruciale du domaine du TAL. Elle sert à l'extraction de relations entre entités nommées, ce qui permet la construction d'une base de connaissance (Surdeanu and Ji, 2014), le résumé automatique (Nobata et al., 2002), etc... Nous nous intéressons ici aux phénomènes de structurations qui les entourent.Nous distinguons ici deux types d'éléments structurels dans une entité nommée. Les premiers sont des sous-chaînes récurrentes, que nous appelerons les affixes caractéristiques d'une entité nommée. Le second type d'éléments est les tokens ayant un fort pouvoir discriminant, appelés des tokens déclencheurs. Nous détaillerons l'algorithme que nous avons mis en place pour extraire les affixes caractéristiques, que nous comparerons à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour extraire les tokens déclencheurs, utilisés pour l'extraction d'entités nommées du Français et d'adresses postales.Une autre forme de structuration pour les entités nommées est de nature syntaxique, qui suit généralement une structure d'imbrications ou arborée. Nous proposons un type de cascade d'étiqueteurs linéaires qui n'avait jusqu'à présent jamais été utilisé pour la reconnaissance d'entités nommées, généralisant les approches précédentes qui ne sont capables de reconnaître des entités de profondeur finie ou ne pouvant modéliser certaines particularités des entités nommées structurées.Tout au long de cette thèse, nous comparons deux méthodes par apprentissage automatique, à savoir les CRF et les réseaux de neurones, dont nous présenterons les avantages et inconvénients de chacune des méthodes.