Segmentation sémantique de documents

par Yassine Ouali

Projet de thèse en Informatique

Sous la direction de CéLINE Hudelot.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale INTERFACES : approches interdisciplinaires / fondements, applications et innovation (Palaiseau, Essonne ; 2015-....) , en partenariat avec Mathématiques et Informatique pour la Complexité et les Systèmes - EA 4037 (laboratoire) et de CentraleSupélec (2015-....) (établissement de préparation de la thèse) depuis le 26-11-2018 .


  • Résumé

    Aujourd'hui de nombreux documents sont dématérialisés, numérisés ou tout simplement numériques de nature, ouvrant ainsi la possibilité à de nombreuses applications de valorisation de ces documents. C'est, par exemple, le cas de nombreux documents historiques (bibliothèque numérique, archives) plus faciles à manipuler numériquement, de documents administratifs (factures, bons de commande, devis...) permettant ainsi la mise en place de chaînes de traitement et d'analyse à grande échelle et grand débit, de manuels scolaires pour la mise en place d'une pédagogie plus interactive ou pour des problèmes d'adaptabilité pour une accessibilité pour tous ou encore des CVs de personnes pour améliorer le processus de recrutement. Dans tous les cas, pour valoriser ces documents, il est nécessaire d'en extraire le contenu ainsi que la structure logique et sémantique de manière automatique et fiable ce qui reste un verrou scientifique. Dans ce contexte, l'objectif de cette thèse est faire avancer l'état de l'art concernant la problématique de la segmentation sémantique de documents dans un cadre générique, c'est-à-dire pour des documents qui peuvent être de type très différents (CVs, manuels, pages web ...).

  • Titre traduit

    Semantic segmentation of documents


  • Résumé

    Today, many documents are dematerialized, digitized or simply digital in nature, opening up the possibility for many applications of these documents. This is, for example, the case of many historical documents (digital library, archives) easier to handle digitally, administrative documents (invoices, purchase orders, quotes ...) thus allowing the establishment of processing chains and large-scale, high-volume analysis, textbooks for more interactive pedagogy or adaptability issues for accessibility for all, and CVs for people to improve the recruitment process. In all cases, to enhance these documents, it is necessary to extract the content as well as the logical and semantic structure automatically and reliably what remains a scientific lock. In this context, the objective of this thesis is to advance the state of the art concerning the problem of the semantic segmentation of documents in a generic framework, that is to say for documents that can be very different (CVs, manuals, web pages ...).