Thèse soutenue

Apprentissage profond non supervisé pour les représentations spatio-temporelles de vidéos : application à la vidéosurveillance
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Devashish Lohani
Direction : Laure Tougne
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 03/04/2023
Etablissement(s) : Lyon 2
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon
Partenaire(s) de recherche : Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône)
Jury : Président / Présidente : François Brémond
Examinateurs / Examinatrices : Jenny Benois Pineau, Lionel Robinault, Carlos Crispim-Junior
Rapporteurs / Rapporteuses : Thierry Chateau, Nicolas Thome

Résumé

FR  |  
EN

Au cours des deux dernières décennies, nous avons assisté à une augmentation massive des caméras de surveillance dans notre environnement. L'une des utilisations les plus importantes de ces caméras est de détecter les comportements suspects ou anormaux. C'est une tâche extrêmement chronophage pour les professionnels de surveiller manuellement la vidéo. Par conséquent, l'analyse vidéo automatique est essentielle. Les systèmes traditionnels ont du mal à généraliser à des événements anormaux qu'ils n'ont jamais vus auparavant. Nous avons constaté d'énormes progrès dans les systèmes de vidéosurveillance basés sur l'apprentissage en profondeur. Ces systèmes dérivent des caractéristiques représentatives des données elles-mêmes. C'est pourquoi, dans cette thèse, nous explorons des méthodes basées sur l'apprentissage profond. Cependant, la majorité des travaux nécessitent un grand volume de données étiquetées. Mais comme les événements anormaux sont rares, il est très difficile d'avoir des données étiquetées. Nous avons donc besoin d'approches qui peuvent fonctionner directement sur les vidéos, sans nécessiter d'annotations. Puisque ces événements se produisent dans des vidéos, l'approche doit donc être capable d'apprendre des représentations spatio-temporelles pour différencier les événements anormaux des événements normaux.Ainsi, dans cette thèse, nous visons à apprendre des représentations spatio-temporelles à partir de vidéos non étiquetées pour détecter des événements anormaux. Plus précisément, nous abordons la tâche de détection d'anomalies vidéo et la détection d'intrusion périmétrique. Nous avons proposé des définitions mathématiques qui ont un impact direct sur l'évaluation, donc nous avons également proposé de nouveaux schémas d'évaluation adaptés. Concernant l'apprentissage des représentations spatio-temporelles sans annotations, nous avons deux approches. Dans la première approche, nous avons conçu un réseau d'auto-encodeur convolutif 3D. L'idée principale est d'apprendre la représentation normale à partir de données d'apprentissage sans intrusions (ou anomalies) et de détecter les intrusions (ou anomalies) lorsqu'elles s'écartent de la normalité apprise. Il a été utilisé pour la tâche de détection d'intrusion périmétrique. Pour faire face à l'évolution de la dynamique de la scène, nous avons introduit une approche de seuillage adaptatif. Nos nombreuses expérimentations ont montré la viabilité de notre approche. Pour améliorer encore la compréhension spatio-temporelle de la normalité, nous avons introduit notre seconde approche. Il s'agissait d'un cadre qui exploite l'apprentissage non supervisé et auto-supervisé dans un encodeur automatique. Nous avons proposé plusieurs tâches bien conçues (non supervisées et auto-supervisées) qui sont exécutées dans un seul auto-encodeur. Cette méthode est également entraînée de bout en bout et conjointement, où les données d'entraînement sont sans anomalies ni intrusions. Pour la détection d'anomalies (ou d'intrusions), chacune des tâches fournit un score d'anomalie et le score combiné est utilisé pour la détection finale. Cette approche est générique et a été appliquée aux deux tâches. Nous avons obtenu des résultats au-delà de l'état de l'art pour les deux tâches, dans les principaux ensembles de données publiques.