Etiquetage semi-automatique de la prosodie dans les corpus oraux : algorithmes et méthodologie

par Estelle Campione

Thèse de doctorat en Langage et parole

Sous la direction de Jean Véronis.

Soutenue en 2001

à Aix Marseille 1 .


  • Pas de résumé disponible.

  • Titre traduit

    Semi-automatic tagging of prosody in spoken corpora : algorithms and methodology


  • Résumé

    L'objectif de cette thèse est de mettre en évidence la faisabilité de la transcription prosodique de grands corpus, à l'aide d'outils semi-automatiques destinés à (1) réduire le coût humain de la transcription, (2) lui apporter une base objective. En effet, les corpus oraux transcrits avec des indications prosodiques sont rares et dispersés alors que la prosodie semble être indispensable à l'interprétation des transcriptions d'oral. Nous proposons un codage prosodique "large" qui délimite seulement les unités majeures, dans une perspective de lisibilité et d'exploitation de grands corpus pour l'analyse des phénomènes syntaxiques et pragmatiques. Nous avons fait le choix de transcrire seulement les évènements qui correspondent à une réalité objective et qui sont par conséquent repérables par l'instrumentation tels que les proéminences mélodiques, les pauses silencieuses, les "marques de travail de formulation" (euh et allongements syllabiques). A l'aide d'un corpus de travail constitué de près de six heures de parole (lue et spontanée) dans cinq langues, nous proposons une analyse rigoureuse et systématique des différents indices et de leur interaction. Nous étudions ainsi près de 60000 mouvements mélodiques et 6000 pauses, et l'influence de facteurs tels que la langue, le sexe, le débit ou le type de parole. Enfin, nous proposons un algorithme qui prend en compte l'ensemble des contraintes et interactions pour produire en sortie un codage prosodique des corpus. Nous avons découplé de façon soigneuse d'une part la phase d'extraction d'indices, automatique ou manuelle, et d'autre part l'interprétation de ces indices à l'aide de règles et contraintes. Cette approche modulaire permet une meilleure compréhension du rôle des différents indices et un travail de mise au point plus aisé, et une certaine indépendance de la langue : les modules de bas niveau sont applicables à diverses langues, et seul le système de règles d'interprétation est spécifique à chaque langue.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 2 vol. (403, 142 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 389-403

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Aix-Marseille (Aix-en-Provence. Schuman). Service commun de la documentation. Bibliothèque universitaire de lettres et sciences humaines.
  • Disponible pour le PEB
  • Bibliothèque : Université de Bretagne-Sud (Lorient). Bibliothèque universitaire.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.