Automatic Multilingual Multimedia Summarization and Information Retrieval

Carlos Gonzalez-Gallardo

Résumé

As multimedia sources have become massively available online, helping users to understandthe large amount of information they generate has become a major issue. Oneway to approach this is by summarizing multimedia content, thus generating abridgedand informative versions of the original sources. This PhD thesis addresses the subjectof text and audio-based multimedia summarization in a multilingual context. It hasbeen conducted within the framework of the Access Multilingual Information opinionS(AMIS) CHISTERA-ANR project, whose main objective is to make informationeasy to understand for everybody.Text-based multimedia summarization uses transcripts to produce summaries thatmay be presented either as text or in their original format. The transcription of multimediasources can be done manually or automatically by an Automatic Speech Recognition(ASR) system. The transcripts produced using either method differ from wellformedwritten language given their source is mostly spoken language. In addition,ASR transcripts lack syntactic information. For example, capital letters and punctuationmarks are unavailable, which means sentences are nonexistent. To deal with thisproblem, we propose a Sentence Boundary Detection (SBD) method for ASR transcriptswhich uses textual features to separate the Semantic Units (SUs) within an automatictranscript in a multilingual context. Our approach, based on subword-level informationvectors and Convolutional Neural Networks (CNNs), overperforms baselines by correctlyidentifying SU borders for French, English and Modern Standard Arabic (MSA).We then study the impact of cross-domain datasets over MSA, showing that tuning amodel that was originally trained with a big out-of-domain dataset with a small indomaindataset normally improves SBD performance. Finally, we extend ARTEX, astate-of-the-art extractive text summarization method, to process documents in MSA byadapting preprocessing modules. The resulting summaries can be presented as plaintext or in their original multimedia format by aligning the selected SUs.Concerning audio-based summarization, we introduce an extractive method whichrepresents the informativeness of the source based on its audio features to select the segmentsthat are most pertinent to the summary. During the training phase, our methoduses available transcripts of the audio documents to create an informativeness modelwhich maps a set of audio features with a divergence value. Subsequently, when summarizingnew audio documents, transcripts are not needed anymore. Results over amulti-evaluator scheme show that our approach provides understandable and informative summaries.Evaluation measures is also a field which we deal with. We developWindow-basedSentence Boundary Evaluation (WiSeBE), a semi-supervised metric based on multireference(dis)agreement, that questions if evaluating an automatic SBD system basedon a single reference is enough to conclude how well the system is performing. We alsoexplore the possibility of measuring the quality of an automatic transcript based on itsinformativeness. In addition, we study to what extent automatic summarization maycompensate for the problems raised during the transcription phase. Lastly, we studyhow text informativeness evaluation measures may be extended to passage interestingnessevaluation.

Alors que les sources multimédias sont massivement disponibles en ligne, aider les utilisateurs à comprendre la grande quantité d'information générée est devenu un problème majeur. Une façon de procéder consiste à résumer le contenu multimédia, générant ainsi des versions abrégées et informatives des sources. Cette thèse aborde le sujet du résumé automatique (texte et parole) dans un contexte multilingue. Elle a été réalisée dans le cadre du projet CHISTERA-ANR Accès multilingue à l'information (AMIS). Le résumé multimédia basé sur le texte utilise des transcriptions pour produire des résumés qui peuvent être présentés sous forme textuelle ou dans leur format d'origine. La transcription des sources multimédia peut être effectuée manuellement ou automatiquement par un système de Reconnaissance automatique de la parole (RAP). Les transcriptions peuvent différer de la langue écrite car la source étant parlée. De plus, ces transcriptions manquent d'informations syntaxiques. Par exemple, les majuscules et les signes de ponctuation sont absents, ce qu'implique des phrases inexistantes. Pour palier ce problème nous proposons une méthode pour la détection des limites de phrases (DLP). Elle est orientée aux transcriptions et utilise des caractéristiques textuelles pour séparer les Unités sémantiques (US) dans un contexte multilingue. Notre approche, basée sur des vecteurs d'information des n-grammes de lettres et des Réseaux de neurones convolutifs, dépasse les performances des méthodes état-de-l'art en identifiant correctement les frontières des US en français, anglais et arabe standard. Nous étudions ensuite l'impact des corpora entre-domaines en arabe standard, en montrant que le raffinement d'un modèle, conçu initialement avec un grand corpus hors du domaine, avec un petit corpus du domaine améliore la performance de la DLP. Enfin, nous étendons ARTEX, un résumeur textuel extractif état de l'art, pour traiter de documents en arabe standard en adaptant ses modules de prétraitement. Les résumés peuvent être présentés sous une forme textuelle ou dans leur format multimédia original en alignant les US sélectionnées. En ce qui concerne le résumé multimédia basée sur l'audio, nous introduisons une méthode extractive qui représente l'informativité de la source à partir de ses caractéristiques audio pour sélectionner les segments les plus pertinents pour le résumé. Pendant la phase d'entraînement, notre méthode utilise les transcriptions des documents audio pour créer un modèle informatif qui établit une correspondance entre un ensemble de caractéristiques audio et une mesure de divergence. Dans notre système, les transcriptions ne sont plus nécessaires pour résumer des nouveaux documents audio. Les résultats obtenus sur un schéma multi-évaluation montrent que notre approche génère des résumés compréhensibles et informatifs. Nous avons étudié également les mesures d'évaluation et nous avons développé la méthode Window-based Sentence Boundary Evaluation (WiSeBE), une métrique semi-supervisée basée sur le (dés)accord multi-références. On examine si l'évaluation basée sur une référence unique d'un système de DLP suffit à évaluer son performance. Nous explorons également la possibilité de mesurer la qualité des transcriptions automatiques en fonction de leur informativité. De plus, nous étudions dans quelle mesure le résumé automatique peut compenser les problèmes posés au cours de la transcription. Enfin, nous étudions comment les mesures d'évaluation d'informativité peuvent être étendues pour l'évaluation de l'intérêt des passages textuels.

Automatic Multilingual Multimedia Summarization and Information Retrieval

Résumé automatique multimédia et multilingue et Recherche d’information

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager