Vers un système omni-langage de recherche de mots dans des bases de documents écrits homogènes
Auteur / Autrice : | Quang Anh Bui |
Direction : | Rémy Mullot, Muriel Visani |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 28/09/2015 |
Etablissement(s) : | La Rochelle |
Ecole(s) doctorale(s) : | École doctorale Sciences et ingénierie pour l'information, mathématiques (Limoges ; 2009-2018) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle) |
Jury : | Président / Présidente : Jean-Philippe Domenger |
Examinateurs / Examinatrices : Rémy Mullot, Muriel Visani, Jean-Philippe Domenger, Véronique Eglin, Nicole Vincent | |
Rapporteurs / Rapporteuses : Véronique Eglin, Nicole Vincent |
Résumé
Notre thèse a pour objectif la construction d’un système omni-langage de recherche de mots dans les documents numérisés. Nous nous plaçons dans le contexte où le contenu du document est homogène (ce qui est le cas pour les documents anciens où l’écriture est souvent bien soignée et mono-scripteur) et la connaissance préalable du document (le langage, le scripteur, le type d’écriture, le tampon, etc.) n’est pas connue. Grâce à ce système, l'utilisateur peut composer librement et intuitivement sa requête et il peut rechercher des mots dans des documents homogènes de n’importe quel langage, sans détecter préalablement une occurrence du mot à rechercher. Le point clé du système que nous proposons est les invariants, qui sont les formes les plus fréquentes dans la collection de documents. Pour le requêtage, l’utilisateur pourra créer le mot à rechercher en utilisant les invariants (la composition des requêtes), grâce à une interface visuelle. Pour la recherche des mots, les invariants peuvent servir à construire des signatures structurelles pour représenter les images de mots. Nous présentons dans cette thèse la méthode pour extraire automatiquement les invariants à partir de la collection de documents, la méthode pour évaluer la qualité des invariants ainsi que les applications des invariants à la recherche de mots et à la composition des requêtes.