Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits

par Benoît Trouvilliez

Thèse de doctorat en Informatique

Sous la direction de Pierre Marquis.

Soutenue le 13-05-2013

à l'Artois , dans le cadre de ED Sciences pour l'ingénieur (n°72) .

Le président du jury était Frédéric Koriche.

Le jury était composé de Pierre Marquis, Frédéric Koriche, Florence Sedes, Yannick Toussaint, Olivier Collin, Vincent Dubois.

Les rapporteurs étaient Florence Sedes, Yannick Toussaint.


  • Résumé

    Cette thèse porte sur l'établissement de similarités de données textuelles dans le domaine de la gestion de la relation client. Elle se décline en deux parties : - l'analyse automatique de messages courts en réponse à des questionnaires de satisfaction ; - la recherche de produits à partir de l'énonciation de critères au sein d'une conversation écrite mettant en jeu un humain et un programme agent. La première partie a pour objectif la production d'informations statistiques structurées extraites des réponses aux questions. Les idées exprimées dans les réponses sont identifiées, organisées selon une taxonomie et quantifiées. La seconde partie vise à transcrire les critères de recherche de produits en requêtes compréhensibles par un système de gestion de bases de données. Les critères étudiés vont de critères relativement simples comme la matière du produit jusqu'à des critères plus complexes comme le prix ou la couleur. Les deux parties se rejoignent sur la problématique d'établissement de similarités entre données textuelles par des techniques de TAL. Les principales difficultés à surmonter sont liées aux caractéristiques des textes, rédigés en langage naturel, courts, et comportant fréquemment des fautes d'orthographe ou des négations. L'établissement de similarités sémantiques entre mots (synonymie, antonymie, etc) et l'établissement de relations syntaxiques entre syntagmes (conjonction, opposition, etc) sont également des problématiques abordées. Nous étudions également dans cette thèse des méthodes de regroupements et de classification automatique de textes afin d'analyser les réponses aux questionnaires de satisfaction.

  • Titre traduit

    Textual data similarities for learning short opinion texts and retrieving products


  • Résumé

    This Ph.D. thesis is about the establishment of textual data similarities in the client relation domain. Two subjects are mainly considered : - the automatic analysis of short messages in response of satisfaction surveys ; - the search of products given same criteria expressed in natural language by a human through a conversation with a program. The first subject concerns the statistical informations from the surveys answers. The ideas recognized in the answers are identified, organized according to a taxonomy and quantified. The second subject concerns the transcription of some criteria over products into queries to be interpreted by a database management system. The number of criteria under consideration is wide, from simplest criteria like material or brand, until most complex criteria like color or price. The two subjects meet on the problem of establishing textual data similarities thanks to NLP techniques. The main difficulties come from the fact that the texts to be processed, written in natural language, are short ones and with lots of spell checking errors and negations. Establishment of semantic similarities between words (synonymy, antonymy, ...) and syntactic relations between syntagms (conjunction, opposition, ...) are other issues considered in our work. We also study in this Ph. D. thesis automatic clustering and classification methods in order to analyse answers to satisfaction surveys.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Artois (Arras, Pas-de-Calais). Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.