Stratégies de fusion pour des signaux écrits et sonores : application à la reconnaissance d’expressions mathématiques

par Sofiane Medjkoune

Thèse de doctorat en Informatique et applications


  • Résumé

    Significant efforts are being done to make as natural as possible the way that human are interacting with their machines. Regarding this quest, a lot of research is being inspired by the most sophisticated machine ever known : human being and more precisely his use of the multi-modality aspect of the information to interact with his peers. The work reported here concerns the study, the conception and the validation of bidimensional structure recognition systems. The application considered here is the mathematical expression language which is one of the most interesting 2D languages. The system we proposed is original since it uses simultaneously two modalities to achieve its task. Indeed, both speech and handwriting streams are used by our system to perform the recognition in a bimodal fashion. This procedure allows dealing with the ambiguities arising when mono-modal processing is used. This system exploits the existing complementarity between the modalities in concern and exhibits an improvement of the performances with respect to the case of a mono-modal processing using only handwriting modality. To set-up, train and validate our system we built HAMEX, a bimodal database of mathematical expressions. This latter, is formed by 4350 mathematical expressions, each available in handwritten and audio forms and is fully annotated.

  • Titre traduit

    Fusion strategies for handwritten and audio strams : application for mathematical expressions recognition


  • Résumé

    L'être humain dans sa quête de mise en œuvre d'un dialogue le plus naturel possible avec sa machine s'inspire continuellement de la machine la plus perfectionnée connue à ce jour : l'être humain lui-même. Une caractéristique forte du dialogue entre humains est le recours à la multi-modalité. Le travail rapporté dans ce manuscrit porte sur l'étude, la conception et la validation d'un système de reconnaissance des expressions mathématiques, classe particulière de structures bidimensionnelles. Ce système est développé dans un cadre bimodal où l'on considère de façon complémentaire l'écriture manuscrite et la parole. La complémentarité qui existe entre ces deux modalités a été vérifiée et exploitée à profit dans notre système, d'abord dans un cadre simplifié qui est celui de la reconnaissance des symboles mathématiques isolés, puis dans un cadre plus général et plus réaliste, celui des expressions mathématiques complètes. La mise en place de ce système bimodal et sa validation requérant la disponibilité de données bimodales, nous avons collecté, complètement annoté et mis à disposition une base, nommée HAMEX, contenant 4350 expressions bimodales couvrant différents domaines. Nous montrons comment utiliser la transcription automatique de la dictée d'une expression pour guider le système de reconnaissance du signal manuscrit pour obtenir des résultats supérieurs au système monomodal. Les performances de ce système s'avèrent être meilleures que celles d'un système mono-modal basé uniquement sur le signal manuscrit seul.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (206 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr p.175-194.

Où se trouve cette thèse ?