Classification et traitement automatique de documents techniques

par Quentin Lutz

Projet de thèse en Mathématiques et Informatique

Sous la direction de Thomas Bonald et de Gérard Burnside.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec LTCI - Laboratoire de Traitement et Communication de l'Information (laboratoire) et de Télécom ParisTech (établissement de préparation de la thèse) depuis le 15-02-2019 .


  • Résumé

    Le but de cette thèse est d'analyser et implémenter plusieurs techniques de classification automatique de documents techniques (normes, brevets, notes techniques, etc.) par l'analyse du texte. Le premier axe concerne les techniques d'apprentissage non-supervisé. On commencera par définir une distance (métrique ou semi-métrique) entre textes reflétant leur degré de similarité. On explorera notamment certaines approches statistiques fondées sur la construction rapide de l'arbre des suffixes, ainsi que les dernières avancées de l'apprentissage profond telles que InferSent de Facebook AIR et le Google Universal Sentence Encoder. Des bases de données réelles de Nokia serviront à mettre en lumières les avantages et défauts des approches existantes, et à l'invention de nouvelles méthodes, mieux adaptées au contexte particulier des documents techniques. La similarité entre textes ainsi définie sera alors utilisée pour différentes tâches de traitement automatique des documents, comme le regroupement de documents similaires, à l'aide algorithmes de partitionnement ou d'embedding de graphes. Ici encore, il conviendra d'analyser les approches existantes en fonction de la structure des graphes générés, et de proposer et analyser de nouveaux algorithmes. Le second axe concerne les techniques d'apprentissage semi-supervisé. La génération de labels par des experts humains est coûteuse et doit être optimisée. L'objectif est ici de sélectionner automatiquement certains documents (et idéalement certaines parties de ces documents) qui nécessitent une expertise humaine. Les algorithmes développés dans la première partie de la thèse seront alors adaptés pour tenir compte de ces labels 'terrain'.

  • Titre traduit

    Classification of technical documents with Machine Learning


  • Résumé

    The objective of the PhD thesis is to propose and analyse different techniques of automatic (or semi-automatic) classification of technical documents (standards, patents, technical notes, etc.) by text processing. A first axis concerns the definition of a distance (metric or semi-metric) between texts reflecting their similarity. Different techniques will be considered, like those based on the fast construction of the suffix trees, as well as the recent advances of deep learning like InferSend (Facebook) and Universal Sentence Encoder (Google). Real datasets of Nokia will be used to assess the performance of existing algorithms in the context of technical documents, and to propose novel algorithms. The similarity between texts will then be used for different tasks of automatic processing, like embedding or clustering documents, through graph-based techniques. Again, existing algorithms will be tested on the generated graphs, and novel algorithms will be proposed and analyzed. A second axis concerns semi-supervised learning techniques. The generation of labels by humans is expensive and must be optimized. The objective is here to select automatically some documents (and ideally of some specific parts of these documents) that need human expertise. The algorithms developed in the first part of the thesis will then be adapted to account for these 'ground-truth' labels.