Rétroconversion de documents mathématiques

par Jean-Yves Toumit

Thèse de doctorat en Informatique

Sous la direction de Hubert Emptoz.

Soutenue en 2000

à Lyon, INSA , dans le cadre de EDIIS - Ecole Doctorale Informatique et Information pour la Societe, LYON EDA 407 , en partenariat avec RFV - Laboratoire de Reconnaissance de Formes et Vision (Lyon, INSA) (laboratoire) .


  • Résumé

    Cette thèse sur la dématérialisation des textes mathématiques concerne le monde de l'édition scientifique tout entier. Il n'existe en effet à l'heure actuelle aucune proposition permettant de convertir la masse de documents papiers (articles de revues, journaux scientifiques, ouvrages spécialisés, de vulgarisation ou scolaires) en documents numériques utilisables dans un traitement de textes. Le premier chapitre propose une vue d'ensemble des différents problèmes auxquels le chercheur est confronté dans ce domaine de pointe, en mettant en évidence les trois axes de recherche principaux : segmentation physique, étiquetage logique du texte et des mathématiques et reconnaissance d'expressions mathématiques. Le deuxième chapitre est consacré à la segmentation physique, étudiée spécialement dans le cadre des documents mathématiques. Après l'étude de l'existant, je montre comment les méthodes actuelles doivent être adaptées au cas particulier des documents mathématiques. L'étiquetage logique fait l'objet du troisième chapitre qui, après une brève présentation des travaux existants, propose une nouvelle méthodologie de séparation du texte des objets mathématiques, tenant compte de la particularité qu'a le texte mathématique de combiner ses deux composantes (texte, objets mathématiques). A la fin de ce chapitre, en utilisant une méthode classique de lecture automatique du texte, on est déjà en mesure de proposer une version HTML du document en conservant les formules mathématiques sous forme d'images. Le quatrième et dernier chapitre s'intéresse enfin à la reconnaissance de formules : celle-ci est en effet nécessaire pour parvenir à la rétroconversion complète du document et à une version LaTeX ou XML/MathML. Il présente des solutions pour les deux questions fondamentales dans ce domaine : la reconnaissance des caractères mathématiques et la structure des expressions mathématiques.

  • Titre traduit

    = Dematerialization of mathematical documents


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : XII-263 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr.p.141-149

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Non disponible pour le PEB
  • Cote : C.83(2584)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.