Thèse soutenue

Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes

FR  |  
EN
Auteur / Autrice : Quang Anh Bui
Direction : Rémy MullotMuriel Visani
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 28/09/2015
Etablissement(s) : La Rochelle
Ecole(s) doctorale(s) : École doctorale Sciences et ingénierie pour l'information, mathématiques (Limoges ; 2009-2018)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle)
Jury : Président / Présidente : Jean-Philippe Domenger
Examinateurs / Examinatrices : Rémy Mullot, Muriel Visani, Jean-Philippe Domenger, Véronique Eglin, Nicole Vincent
Rapporteurs / Rapporteuses : Véronique Eglin, Nicole Vincent

Résumé

FR  |  
EN

Notre thèse a pour objectif la construction d’un système omni-langage de recherche de mots dans les documents numérisés. Nous nous plaçons dans le contexte où le contenu du document est homogène (ce qui est le cas pour les documents anciens où l’écriture est souvent bien soignée et mono-scripteur) et la connaissance préalable du document (le langage, le scripteur, le type d’écriture, le tampon, etc.) n’est pas connue. Grâce à ce système, l'utilisateur peut composer librement et intuitivement sa requête et il peut rechercher des mots dans des documents homogènes de n’importe quel langage, sans détecter préalablement une occurrence du mot à rechercher. Le point clé du système que nous proposons est les invariants, qui sont les formes les plus fréquentes dans la collection de documents. Pour le requêtage, l’utilisateur pourra créer le mot à rechercher en utilisant les invariants (la composition des requêtes), grâce à une interface visuelle. Pour la recherche des mots, les invariants peuvent servir à construire des signatures structurelles pour représenter les images de mots. Nous présentons dans cette thèse la méthode pour extraire automatiquement les invariants à partir de la collection de documents, la méthode pour évaluer la qualité des invariants ainsi que les applications des invariants à la recherche de mots et à la composition des requêtes.