Il faut et on peut construire des systèmes de commerce électronique à interface en langue naturelle restreints (et multilingues) en utilisant des méthodes orientées vers les sous-langages et le contenu

par Daoud Maher Daoud

Thèse de doctorat en Informatique

Sous la direction de Christian Boitet.

Soutenue en 2006

à l'Université Joseph Fourier (Grenoble) .


  • Résumé

    Aucun système de commerce électronique opérationnel n'est capable de traiter en ligne des requêtes d'utilisateurs exprimées en langue naturelle spontanée. Certains systèmes évitent le problème difficile du développement et du support d'une interface en langue naturelle en simplifiant le type d'interaction de l'utilisateur, par l'utilisation de formulaires à remplir ou d'un langage naturel contrôlé. D'autres systèmes ont cherché mais échoué à offrir une interface en langue naturelle spontanée, parce qu'ils utilisaient des techniques de TALN inadaptées. Le but de cette thèse est de montrer qu'il est nécessaire et possible de construrie des systèmes de commerce électronique à interface en langue naturelle restreints (et multilingues) en utilisant des méthodes orientées vers les sous-langages et le contenu. L'analyse du sous-langage et l'intégration de méthodes orientées vers le contenu augmentent en effet l'exactitude et la robustesse du traitement de façon décisive. Pour vérifier cela, nous avons construit un système expérimental, CATS, comme "preuve de concept". C'est un système de petites annonces en langue naturelle (actuellement l'arabe) basé sur les SMS destiné à mettre en contact des personnes désirant vendre ou acheter des voitures d'occasion, de l'immobilier, etc. Pour analyser le sous-langage très particulier de ces petites annonces en SMS, nous sommes partis d'un corpus web de messages de ce type (mais pas en SMS) pour construire un système de base couvrant l'occasion automobile et l'immobilier en Jordanie. Ce premier système a été déployé, ce qui nous a permis de collecter un corpus réel de SMS "spontanés" dans ces domaines, et d'ajuster finement CATS à ces domaines. Le traitement sémantique étant nécessaire, nous avons défini CRL-cats, un langage de représentation du contenu très simple, mais suffisant pour exprimer le contenu de telles petites annonces. Nous avons écrit l'extracteur de contenu dans le langage spécialisé pour la programmation linguisitique EnCo, dans lequel nous avions déjà écrit le premier "enconvertisseur" arabe-UNL. Ce langage étant d'assez bas niveau, et n'offant aucune aide à la programmation modulaire, nous avons développé une méthodologie qui facilite l'écriture d'enconvertisseurs aussi bien que d'extracteurs de contenu, et permet un codage systématique et efficace. La génération des réponses est basée sur une reconnaissance de patrons sémantiques, différents selon qu'il s'agit d'une annonce de recherche ("look for") ou d'offre ("sell"), et sur un mécanisme de raisonnement, de sorte qu'on peut traiter les situations "sans réponse". À la différence d'autres systèmes expérimentaux, CATS a été conçu dès le départ pour être un "système de production". Il est actuellement déployé en Jordanie par le plus grand opérateur de téléphonie mobile (Fastlink), qui lui a d'abord fait passer des tests sévères. Le test de l'extracteur de contenu sur du texte réel et bruité a donné une f-mesure de 90%. Le temps de réponse moyen est d'environ 10 à 30 secondes à une heure de pointe (10 annonces par minute).


  • Pas de résumé disponible.

  • Titre traduit

    It is necessary and possible to build (multilingual) NL-based restricted e-commerce systems with mixed sublanguage and content-oriented methods


  • Résumé

    The survey of the available e-commerce systems shows that none of them is able to handle spontaneous users' requests online. Some systems avoid the hard problem of supporting free natural language interface by simplifying the user interaction styles either by using form filling or by using controlled languages. Other systems failed to support free natural language interface because they used inadequate NLP techniques. The purpose of this thesis is to show that it is necessary and possible to build (multilingual) NL-based e-commerce systems with mixed sublanguage and content-oriented methods. The analysis of the sublanguage and the integration of content-oriented methods will definitely increase the accuracy and robustness of the processing. To verify this assumption, we built an experimental system as a proof-of-concept. The system is a SMS-based classified ads selling and buying platform. It allows users to send classified ads of the articles/goods they would like to sell and to search for the goods/articles they desire using full natural language interface. To analyze the sublanguage, we first used a web based corpus to build the basic system which covers the Cars and Real Estate domains. This initial experimental deployment of the system was to collect real SMS-based spontaneous data, which were used to fine tune the system. To enable semantic processing, a content representation language is defined to capture the meaning of a classified ad post. The semantic grammars of content extraction are coded using the EnCo specialized language for linguistic programming which we used previously in developing the first Arabic-UNL enconverter. To enhance the process of coding using EnCo, we have developed a methodology that facilitates this process and provides the means for a systematic and efficient coding. Response generation is based on semantic matching (“looking for” and “sell” posts) and reasoning and is able to handle “no answer situations”. Not like other experimental systems, CATS was designed from the beginning to be a “production system”. It is currently deployed in Jordan by the largest mobile operator (Fastlink) after passing intensive testing by them. Testing the content extraction component with a real noisy free text shows a 90% F-measure. The average response time is around 10~30 seconds calculated during peak time (10 posts/minute).

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (IV-290 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 155-160

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Non disponible pour le PEB
  • Cote : TS06/GRE1/0096
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS06/GRE1/0096/D
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.