Thèse soutenue

Modèles statistiques pour la prédiction de cadres sémantiques
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Olivier Michalon
Direction : Alexis NasrBenoît Favre
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/10/2017
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : Ecole Doctorale Mathématiques et Informatique de Marseille (Marseille)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique fondamentale (Marseille)
Jury : Président / Présidente : Matthieu Constant
Examinateurs / Examinatrices : Benoît Favre, Marie-Hélène Candito
Rapporteurs / Rapporteuses : Nicholas Asher

Mots clés

FR  |  
EN

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

En traitement automatique de la langue, les différentes étapes d'analyse usuelles ont tour à tour amélioré la façon dont le langage peut être modélisé par les machines. Une étape d'analyse encore mal maîtrisée correspond à l'analyse sémantique. Ce type d'analyse permettrait de nombreuses avancées, telles que de meilleures interactions homme-machine ou des traductions plus fiables. Il existe plusieurs structures de représentation du sens telles que PropBank, les AMR et FrameNet. FrameNet correspond à la représentation en cadres sémantiques dont la théorie a été décrite par Charles Fillmore. Dans cette théorie, chaque situation prototypique et les différents éléments y intervenant sont représentés de telle sorte que deux situations similaires soient représentées par le même objet, appelé cadre sémantique. Le projet FrameNet est une application de cette théorie, dans laquelle plusieurs centaines de situations prototypiques sont définies. Le travail que nous décrirons ici s'inscrit dans la continuité des travaux déjà élaborés pour prédire automatiquement des cadres sémantiques. Nous présenterons quatre systèmes de prédiction, chacun ayant permis de valider une hypothèse sur les propriétés nécessaires à une prédiction efficace. Nous verrons également que notre analyse peut être améliorée en fournissant aux modèles de prédiction des informations raffinées au préalable, avec d'un côté une analyse syntaxique dont les liens profonds sont explicités et de l'autre des représentations vectorielles du vocabulaire apprises au préalable.