Thèse soutenue

Approches d'intelligence artificielle explicables pour le sous-titrage d'images

FR  |  
EN
Auteur / Autrice : Sofiane Elguendouze
Direction : Marcílio De SoutoAdel Hafiane
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/01/2024
Etablissement(s) : Orléans
Ecole(s) doctorale(s) : Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes - MIPTIS
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique fondamentale d'Orléans (Orléans ; 1987-....)
Jury : Président / Présidente : Nicolas Maudet
Examinateurs / Examinatrices : Nicolas Maudet, Jean-Marie Lagniez, Stéphane Herbin, Anaïs Lefeuvre
Rapporteurs / Rapporteuses : Jean-Marie Lagniez, Stéphane Herbin

Résumé

FR  |  
EN

L'évolution rapide des modèles de sous-titrage d'images, impulsée par l'intégration de techniques d'apprentissage profond combinant les modalités image et texte, a conduit à des systèmes de plus en plus complexes. Cependant, ces modèles fonctionnent souvent comme des boîtes noires, incapables de fournir des explications transparentes de leurs décisions. Cette thèse aborde l'explicabilité des systèmes de sous-titrage d'images basés sur des architectures Encodeur-Attention-Décodeur, et ce à travers quatre aspects. Premièrement, elle explore le concept d'espace latent, s'éloignant ainsi des approches traditionnelles basées sur l'espace de représentation originel. Deuxièmement, elle présente la notion de caractère décisif, conduisant à la formulation d'une nouvelle définition pour le concept d'influence/décisivité des composants dans le contexte de sous-titrage d'images explicable, ainsi qu'une approche par perturbation pour la capture du caractère décisif. Le troisième aspect vise à élucider les facteurs influençant la qualité des explications, en mettant l'accent sur la portée des méthodes d'explication. En conséquence, des variantes basées sur l'espace latent de méthodes d'explication bien établies telles que LRP et LIME ont été développées, ainsi que la proposition d'une approche d'évaluation centrée sur l'espace latent, connue sous le nom d'Ablation Latente. Le quatrième aspect de ce travail consiste à examiner ce que nous appelons la saillance et la représentation de certains concepts visuels, tels que la quantité d'objets, à différents niveaux de l'architecture de sous-titrage.