Thèse soutenue

Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits

FR  |  
EN
Auteur / Autrice : Benoît Trouvilliez
Direction : Pierre Marquis
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/05/2013
Etablissement(s) : Artois
Ecole(s) doctorale(s) : ED Sciences pour l'ingénieur (n°72)
Jury : Président / Présidente : Frédéric Koriche
Examinateurs / Examinatrices : Pierre Marquis, Frédéric Koriche, Florence Sedes, Yannick Toussaint, Olivier Collin, Vincent Dubois
Rapporteurs / Rapporteuses : Florence Sedes, Yannick Toussaint

Résumé

FR  |  
EN

Cette thèse porte sur l'établissement de similarités de données textuelles dans le domaine de la gestion de la relation client. Elle se décline en deux parties : - l'analyse automatique de messages courts en réponse à des questionnaires de satisfaction ; - la recherche de produits à partir de l'énonciation de critères au sein d'une conversation écrite mettant en jeu un humain et un programme agent. La première partie a pour objectif la production d'informations statistiques structurées extraites des réponses aux questions. Les idées exprimées dans les réponses sont identifiées, organisées selon une taxonomie et quantifiées. La seconde partie vise à transcrire les critères de recherche de produits en requêtes compréhensibles par un système de gestion de bases de données. Les critères étudiés vont de critères relativement simples comme la matière du produit jusqu'à des critères plus complexes comme le prix ou la couleur. Les deux parties se rejoignent sur la problématique d'établissement de similarités entre données textuelles par des techniques de TAL. Les principales difficultés à surmonter sont liées aux caractéristiques des textes, rédigés en langage naturel, courts, et comportant fréquemment des fautes d'orthographe ou des négations. L'établissement de similarités sémantiques entre mots (synonymie, antonymie, etc) et l'établissement de relations syntaxiques entre syntagmes (conjonction, opposition, etc) sont également des problématiques abordées. Nous étudions également dans cette thèse des méthodes de regroupements et de classification automatique de textes afin d'analyser les réponses aux questionnaires de satisfaction.