Résumé automatique de parole pour un accès efficace aux bases de données audio

par Benoît Favre

Thèse de doctorat en Informatique

Sous la direction de Jean-François Bonastre et de Patrice Bellot.

Soutenue en 2007

à Avignon .


  • Résumé

    L'avènement du numérique permet de stocker de grandes quantités de parole à moindre coût. Malgré les récentes avancées en recherche documentaire audio, il reste difficile d'exploiter les documents à cause du temps nécessaire pour les écouter. Nous tentons d'atténuer cet inconvénient en produisant un résumé automatique parlé à partir des informations les plus importantes. Pour y parvenir, une méthode de résumé par extraction est appliquée au contenu parlé, transcrit et structuré automatiquement. La transcription enrichie est réalisée grâce aux outils Speeral et Alize développés au LIA. Nous complétons cette chaîne de structuration par une segmentation en phrases et une détection des entités nommées, deux caractéristiques importantes pour le résumé par extraction. La méthode de résumé proposée prend en compte les contraintes imposées par des données audio et par des interactions avec l'utilisateur. De plus, cette méthode intègre une projection dans un espace pseudo-sémantique des phrases. Les différents modules mis en place aboutissent à un démonstrateur complet facilitant l'étude des interactions avec l'utilisateur. En l'absence de données d'évaluation sur la parole, la méthode de résumé est évaluée sur le texte lors de la campagne DUC 2006. Nous simulons l'impact d'un contenu parlé en dégradant artificiellement les données de cette même campagne. Enfin, l'ensemble de la chaîne de traitement est mise en oeuvre au sein d'un démonstrateur facilitant l'accès aux émissions radiophoniques de la campagne ESTER. Nous proposons, dans le cadre de ce démonstrateur, une frise chronologique interactive complémentaire au résumé parlé

  • Titre traduit

    Speech summarization for efficient audio database browsing


  • Résumé

    The digital era has revealed new ways to store great quantities of speech at a low cost. Whereas recent advances in spoken document retrieval, exploiting audio documents is still difficult because of the time necessary to listen to them. We try to attenuate this disadvantage by producing an automatic spoken abstract from the most important information. For that purpose, an extractive summarization algorithm is applied to the spoken content thanks to automatic speech structuring. The rich transcription is carried out thanks to Speeral and Alize toolkits developed at LIA. We complement this structuring chain by sentence segmentation and named entities detection, two important features for extractive summarization. The proposed summarization approach includes constraints imposed by audio data and interactions with the user. Moreover, the method integrates a projection of sentences in pseudo-semantic-space. We integrated the various modules in a coherent prototype that ease the study of user interactions. Due to the lack of evaluation data for the speech summarization task, we evaluate our approach on the textual documents from the DUC 2006 campaign. We simulate the impact of spoken content structuring by artificially degrading the textual content provided for DUC. Finally, the whole processing sequence is implemented within a demonstrator facilitating the access radio broadcasts from the ESTER evaluation campain. Within the framework of this prototype, we present an interactive timeline that aims at recontextualizing the spoken summary

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (183 p.)
  • Annexes : Bibliogr. p. 167-182

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : T 17.07.277

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Non disponible pour le PEB
  • Cote : T MF 115
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.