Normalisation orthographique de corpus bruités
Auteur / Autrice : | Marion Baranes |
Direction : | Laurence Danlos, Benoît Sagot |
Type : | Thèse de doctorat |
Discipline(s) : | Linguistique théorique, descriptive et automatique |
Date : | Soutenance en 2015 |
Etablissement(s) : | Sorbonne Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Sciences du langage (Paris ; 1992-2019) |
Partenaire(s) de recherche : | Autre partenaire : Université Paris Diderot - Paris 7 (1970-2019) |
Jury : | Président / Présidente : Cédrick Fairon |
Examinateurs / Examinatrices : Delphine Bernhard | |
Rapporteurs / Rapporteuses : Cédrick Fairon, Philippe Langlais |
Mots clés
Mots clés libres
Résumé
Les messages publiés par les internautes comportent un intérêt stratégique pour les entreprises. Néanmoins, peu d'outils ont été conçus pour faciliter l'analyse de ces messages souvent bruités. Cette thèse, réalisée au sein de l'entreprise viavoo, veut améliorer les résultats d'un outil d'extraction d'information qui fait abstraction de la variabilité flexionnelle. Nous avons ainsi développé une chaîne de traitements pour la normalisation orthographique de textes bruités. Notre approche consiste tout d'abord à déterminer automatiquement, parmi les tokens du corpus traité qui sont inconnus d'un lexique, ceux qui résultent d'altérations et qu'il conviendrait de normaliser, par opposition aux autres (néologismes, emprunts. . . ). Des candidats de normalisation sont alors proposés pour ces tokens à l'aide de règles pondérées obtenues par des techniques d'apprentissage par analogie. Nous identifions ensuite des tokens connus du lexique qui résultent néanmoins d'une altération (fautes grammaticales), et proposons des candidats de normalisation pour ces tokens. Enfin, des modèles de langue permettent de prendre en compte le contexte dans lequel apparaissent les différents types d'altérations pour lesquels des candidats de normalisation ont été proposés afin de choisir les plus probables. Différentes expériences et évaluations sont réalisées sur le français à chaque étape et sur la chaîne complète. Une attention particulière a été portée au caractère faiblement dépendant de la langue des modules développés, ce qui permet d'envisager son adaptation à d'autres langues européennes