Classification de textes : de nouvelles pondérations adaptées aux petits volumes

par Flavien Bouillot

Thèse de doctorat en Informatique

Sous la direction de Pascal Poncelet et de Mathieu Roche.

Soutenue le 16-04-2015

à Montpellier , dans le cadre de Information, Structures, Systèmes (Montpellier ; École Doctorale ; 2009-2014) , en partenariat avec Laboratoire d'Informatique, Robotique et Micro-électronique de Montpellier (laboratoire) .


  • Résumé

    Au quotidien, le réflexe de classifier est omniprésent et inconscient. Par exemple dans le processus de prise de décision où face à un élément (un objet, un événement, une personne) nous allons instinctivement chercher à rapprocher cet élément d'autres similaires afin d'adapter nos choix et nos comportements. Ce rangement dans telle ou telle catégorie repose sur les expériences passées et les caractéristiques de l'élément. Plus les expériences seront nombreuses et les caractéristiques détaillées, plus fine et pertinente sera la décision. Il en est de même lorsqu'il nous faut catégoriser un document en fonction de son contenu. Par exemple détecter s'il s'agit d'un conte pour enfants ou d'un traité de philosophie. Ce traitement est bien sûr d'autant plus efficace si nous possédons un grand nombre d'ouvrages de ces deux catégories et que l'ouvrage à classifier possède un nombre important de mots.Dans ce manuscrit nous nous intéressons à la problématique de la prise de décision lorsque justement nous disposons de peu de documents d'apprentissage et que le document possède un nombre de mots limité. Nous proposons pour cela une nouvelle approche qui repose sur de nouvelles pondérations. Elle nous permet de déterminer avec précision l'importance à accorder aux mots composant le document.Afin d'optimiser les traitements, nous proposons une approche paramétrable. Cinq paramètres rendent notre approche adaptable, quel que soit le problème de classification donné. De très nombreuses expérimentations ont été menées sur différents types de documents, dans différentes langues et dans différentes configurations. Selon les corpus, elles mettent en évidence que notre proposition nous permet d'obtenir des résultats supérieurs en comparaison avec les meilleures approches de la littérature pour traiter les problématiques de petits volumes.L'utilisation de paramètres introduit bien sur une complexité supplémentaire puisqu'il faut alors déterminer les valeurs optimales. Détecter les meilleurs paramètres et les meilleurs algorithmes est une tâche compliquée dont la difficulté est théorisée au travers du théorème du No-Free-Lunch. Nous traitons cette seconde problématique en proposant une nouvelle approche de méta-classification reposant sur les notions de distances et de similarités sémantiques. Plus précisément nous proposons de nouveaux méta-descripteurs adaptés dans un contexte de classification de documents. Cette approche originale nous permet d'obtenir des résultats similaires aux meilleures approches de la littérature tout en offrant des qualités supplémentaires.Pour conclure, les travaux présentés dans ce manuscrit ont fait l'objet de diverses implémentations techniques, une dans le logiciel Weka, une dans un prototype industriel et enfin une troisième dans le logiciel de la société ayant financé ces travaux.

  • Titre traduit

    Text Classification : new weights suitable for small dataset


  • Résumé

    Every day, classification is omnipresent and unconscious. For example in the process of decision when faced with something (an object, an event, a person), we will instinctively think of similar elements in order to adapt our choices and behaviors. This storage in a particular category is based on past experiences and characteristics of the element. The largest and the most accurate will be experiments, the most relevant will be the decision. It is the same when we need to categorize a document based on its content. For example detect if there is a children's story or a philosophical treatise. This treatment is of course more effective if we have a large number of works of these two categories and if books had a large number of words. In this thesis we address the problem of decision making precisely when we have few learning documents and when the documents had a limited number of words. For this we propose a new approach based on new weights. It enables us to accurately determine the weight to be given to the words which compose the document.To optimize treatment, we propose a configurable approach. Five parameters make our adaptable approach, regardless of the classification given problem. Numerous experiments have been conducted on various types of documents in different languages and in different configurations. According to the corpus, they highlight that our proposal allows us to achieve superior results in comparison with the best approaches in the literature to address the problems of small dataset. The use of parameters adds complexity since it is then necessary to determine optimitales values. Detect the best settings and best algorithms is a complicated task whose difficulty is theorized through the theorem of No-Free-Lunch. We treat this second problem by proposing a new meta-classification approach based on the concepts of distance and semantic similarities. Specifically we propose new meta-features to deal in the context of classification of documents. This original approach allows us to achieve similar results with the best approaches to literature while providing additional features. In conclusion, the work presented in this manuscript has been integrated into various technical implementations, one in the Weka software, one in a industrial prototype and a third in the product of the company that funded this work.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque interuniversitaire. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.