Thèse soutenue

Normalisation orthographique de corpus bruités

FR  |  
EN
Auteur / Autrice : Marion Baranes
Direction : Laurence DanlosBenoît Sagot
Type : Thèse de doctorat
Discipline(s) : Linguistique théorique, descriptive et automatique
Date : Soutenance en 2015
Etablissement(s) : Sorbonne Paris Cité
Ecole(s) doctorale(s) : École doctorale Sciences du langage (Paris ; 1992-2019)
Partenaire(s) de recherche : Autre partenaire : Université Paris Diderot - Paris 7 (1970-2019)
Jury : Président / Présidente : Cédrick Fairon
Examinateurs / Examinatrices : Delphine Bernhard
Rapporteurs / Rapporteuses : Cédrick Fairon, Philippe Langlais

Mots clés

FR

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

Les messages publiés par les internautes comportent un intérêt stratégique pour les entreprises. Néanmoins, peu d'outils ont été conçus pour faciliter l'analyse de ces messages souvent bruités. Cette thèse, réalisée au sein de l'entreprise viavoo, veut améliorer les résultats d'un outil d'extraction d'information qui fait abstraction de la variabilité flexionnelle. Nous avons ainsi développé une chaîne de traitements pour la normalisation orthographique de textes bruités. Notre approche consiste tout d'abord à déterminer automatiquement, parmi les tokens du corpus traité qui sont inconnus d'un lexique, ceux qui résultent d'altérations et qu'il conviendrait de normaliser, par opposition aux autres (néologismes, emprunts. . . ). Des candidats de normalisation sont alors proposés pour ces tokens à l'aide de règles pondérées obtenues par des techniques d'apprentissage par analogie. Nous identifions ensuite des tokens connus du lexique qui résultent néanmoins d'une altération (fautes grammaticales), et proposons des candidats de normalisation pour ces tokens. Enfin, des modèles de langue permettent de prendre en compte le contexte dans lequel apparaissent les différents types d'altérations pour lesquels des candidats de normalisation ont été proposés afin de choisir les plus probables. Différentes expériences et évaluations sont réalisées sur le français à chaque étape et sur la chaîne complète. Une attention particulière a été portée au caractère faiblement dépendant de la langue des modules développés, ce qui permet d'envisager son adaptation à d'autres langues européennes