Thèse soutenue

Représentation, extraction d'informations et syntèse pour la compréhension automatique du multimédia

FR  |  
EN
Auteur / Autrice : Ismail Harrando
Direction : Bernard MerialdoRaphaël Troncy
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/05/2022
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Institut EURECOM (Sophia-Antipolis, Alpes-Maritimes ; 1992-....)
Jury : Président / Présidente : Serena Villata
Examinateurs / Examinatrices : Paolo Papotti
Rapporteurs / Rapporteuses : Andreas L. Opdahl, Johanna Bjorklund

Résumé

FR  |  
EN

Que ce soit à la télévision ou sur internet, la production de contenu vidéo connaît un essor sans précédent. La vidéo est devenu non seulement le support dominant pour le divertissement, mais elle est également considérée comme l'avenir de l'éducation, l'information et le loisir. Néanmoins, le paradigme traditionnel de la gestion du multimédia s'avère incapable de suivre le rythme imposé par l'ampleur du volume de contenu créé chaque jour sur les différents canaux de distribution. Ainsi, les tâches de routine telles que l'archivage, l'édition, l'organisation et la recherche de contenu par les créateurs multimédias deviennent d'un coût prohibitif. Du côté de l'utilisateur, la quantité de contenu multimédia distribuée quotidiennement peut être écrasante ; le besoin d'un contenu plus court et plus personnalisé n'a jamais été aussi prononcé. Pour faire progresser l'état de l'art sur ces deux fronts, un certain niveau de compréhension du multimédia doit être atteint par nos ordinateurs. Dans cette thèse, nous proposons d'aborder les multiples défis auxquels sont confrontés le traitement et l'analyse automatique de contenu multimédia, en orientant notre exploration autour de trois axes : 1. la représentation: avec toute sa richesse et sa variété, la modélisation et la représentation du contenu multimédia peut être un défi en soi. 2. la description: La composante textuelle du multimédia peut être exploitée pour générer des descripteurs de haut niveau (annotation) pour le contenu en question. 3. le résumé: où nous étudions la possibilité d'extraire les moments d'intérêt de ce contenu, à la fois pour un résumé centré sur la narration et pour maximiser la mémorabilité.