Thèse de doctorat en Signal et image
Sous la direction de Bernard Merialdo.
Soutenue en 2003
à Paris, ENST .
La croissance rapide des documents multimédia, comme par exemple l'énorme flux de vidéos qui se trouvent sur les ordinateurs personnels et autres équipements, nécessite le développement de nombreux outils pour leur manipulation. La création automatique de résumés vidéos est un outil performant qui permet de résumer le contenu général de la vidéo et de ne présenter que les parties les plus pertinentes. A travers cette thèse, nous proposons une nouvelle approche de construction et d évaluation automatique des résumés vidéos. Cette approche est basée sur un principe que nous proposons et que nous dénommons "Principe de Reconnaissance Maximale ". Ce dernier est dérivé d'une tâche réaliste prédéfinie qui consiste à l'identification de l'origine d'un extrait donné ayant uniquement connaissance d'un résumé. Notre méthode de construction est un processus d'optimisation, par rapport au Principe de Reconnaissance Maximale PRM, qui permet de construire le meilleur résumé possible pour aider l'utilisateur dans l'accomplissement de cette tâche d'identification. Le meilleur résumé est celui qui maximise le nombre de réponses correctes données par l'utilisateur. Cette technique peut être utilisée pour la création de résumés de différents types de média. Dans cette thèse, nous avons adopté de PRM pour proposer différentes méthodes de création de résumés selon le ou les média pris en considération. En premier lieu, nous avons présenté une première méthode de construction de résumés vidéos en utilisant uniquement les informations visuelles, puis nous avons étudié différentes autres méthodes de construction multi-vidéos. Ensuite, nous avons illustré l'adaptation de ce principe pour la construction de résumés basés exclusivement sur les informations textuelles. Enfin, nous avons proposé une méthode mixte de construction de résumés vidéo-textuels en combinant conjointement lors du processus d'optimisation les inforamtions visuelles et textuelles
Automatic construction of video summaries
The ever-growing availability of multimedia data, creates a strong requirement for efficient tools to manipulate and present data in an effective manner. Automatic video summarization tools aim at creating with little or no human interaction short versions which contains the salient information of original video. The key issue here is to identify what should be kept in the summary and how relevant information can be automatically extracted. In this thesis, we present a new approach for the automatic construction and evaluation of video summaries. This approach is based on a task that we feel relevant to many applications of summaries: the user is asked to identify if a short clip comes from an original audio-video sequence or not, using only the knowledge of the summary (rather than the full sequence). The performance of the user is measured by the percentage of correct decisions over all possible clips taken from the original sequence. We call this task a Maximum Recollection Task (MRT), in the sense that the summary should let the user identify as many clips as possible. The best summary is therefore chosen according to a Maximum Recollection Principle (MRP). In this work, we have extended the MRP to propose different methods of summaries creation according to the type of the media used. First, we presented a method for automatic construction of video summaries based on visual information only. Then we compared some methodologies for multi video summaries construction, where the focus is not necessarily on what is important in a video, but rather what distinguishes this video from the others. We have also illustrated the adaptation of this principle to build summaries from text documents. Finally, we presented a framework in which text and video are combined during the construction of summaries of audio-video sequences.