Thèse soutenue

Modèle CNN réduit pour une classification invariante par rotation

FR  |  
EN
Auteur / Autrice : Rosemberg Rodriguez Salas
Direction : Eva DokladalovaPetr Dokladal
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/07/2021
Etablissement(s) : Université Gustave Eiffel
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - Laboratoire d'informatique de l'Institut Gaspard Monge
Jury : Président / Présidente : Fan Yang Song
Examinateurs / Examinatrices : Eva Dokladalova, Petr Dokladal, Alejandro Castillo Atoche, Nicolas Loménie
Rapporteurs / Rapporteuses : Alejandro Castillo Atoche, Nicolas Loménie

Résumé

FR  |  
EN

Au cours des dernières années, le nombre d'applications industrielles, automobiles et de surveillance basées sur la vision par ordinateur a augmenté de façon exponentielle. Cette tendance est favorisée par le succès des réseaux de neurones convolutifs (CNN) dans ce domaine. Ce succès est lié à leurs performances et aussi à des avancées notables dans leurs implémentations efficaces. Néanmoins, leurs besoins informatiques restent très élevés et parfois limitants. Cela est principalement dû au nombre de paramètres entraînables nécessaires pour fournir des capacités de généralisation sur des données complexes.Dans ce travail, nous ciblons spécifiquement le problème de la classification invariante par rotation. Nous proposons une architecture CNN originale dont la première couche est constituée d'un ensemble contraint de filtres. Ces filtres sont des copies orientées les uns des autres, sont ordonnés par l'angle de rotation et forment ensemble un espace roto-translationel. Un classifieur effectuant une translation est ensuite utilisé pour effectuer la classification. La position du maximum de probabilité indique l'angle de rotation de l'entrée. Nous évaluons plusieurs familles de filtres telles que celles utilisés dans la transformée scattering, des filtres orientables et des filtres Gabor. Nous présentons des résultats expérimentaux sur la façon dont l'approche méthodologique proposée permet de doter les architectures ''backbone'' de propriétés invariantes par rotation. Nous fournissons également une preuve de l'entraînablité d'une telle architecture.L'objectif principal est de réduire la taille d'un modèle de classification invariante par rotation sans sacrifier la précision et la qualité des résultats. Pour ce faire, nous proposons de nous concentrer sur l'intégration directe de la capacité d'invariance à la transformation de l'image par rotation dans l'architecture du réseau neuronal.Nous évaluons les résultats sur des ensembles de données simples et complexes en utilisant un réseau personnalisé et l'un des réseaux dorsaux bien connus et à la pointe de la technologie ResNet. Nous démontrons que le cadre d'invariance de rotation proposé permet d'obtenir des résultats de taux d'erreur de pointe sur des ensembles de données simples comme MNIST (2,05% contre 6,00% précédemment, quand formés sur des exemples en haut à droite) et surpassé les approches précédentes sur des ensembles de données complexes comme CIFAR-10 (21,50% contre 55,88% précédemment) tout en réduisant de plus de 50% le nombre de paramètres pouvant être entraînés à partir des méthodes de pointe actuelles. De plus, ces résultats sont obtenus sans techniques d'augmentation des données et avec de nouvelles capacités de prédiction angulaire.Ainsi, les résultats présentés ouvrent la possibilité d'utiliser ces réseaux dans des dispositifs aux ressources limitées tels que les plates-formes embarquées et les smartphones. En outre, cela ouvre l'opportunité d'utiliser ce concept dans des applications où l'invariance de rotation peut jouer son rôle mais où l'on rencontre souvent des ensembles de données relativement limités comme l'imagerie aérienne, la reconnaissance alimentaire et la reconnaissance faciale.