Modèle CNN réduit pour une classification invariante par rotation
Auteur / Autrice : | Rosemberg Rodriguez Salas |
Direction : | Eva Dokladalova, Petr Dokladal |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 05/07/2021 |
Etablissement(s) : | Université Gustave Eiffel |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - Laboratoire d'informatique de l'Institut Gaspard Monge |
Jury : | Président / Présidente : Fan Yang Song |
Examinateurs / Examinatrices : Eva Dokladalova, Petr Dokladal, Alejandro Castillo Atoche, Nicolas Loménie | |
Rapporteurs / Rapporteuses : Alejandro Castillo Atoche, Nicolas Loménie |
Mots clés
Résumé
Au cours des dernières années, le nombre d'applications industrielles, automobiles et de surveillance basées sur la vision par ordinateur a augmenté de façon exponentielle. Cette tendance est favorisée par le succès des réseaux de neurones convolutifs (CNN) dans ce domaine. Ce succès est lié à leurs performances et aussi à des avancées notables dans leurs implémentations efficaces. Néanmoins, leurs besoins informatiques restent très élevés et parfois limitants. Cela est principalement dû au nombre de paramètres entraînables nécessaires pour fournir des capacités de généralisation sur des données complexes.Dans ce travail, nous ciblons spécifiquement le problème de la classification invariante par rotation. Nous proposons une architecture CNN originale dont la première couche est constituée d'un ensemble contraint de filtres. Ces filtres sont des copies orientées les uns des autres, sont ordonnés par l'angle de rotation et forment ensemble un espace roto-translationel. Un classifieur effectuant une translation est ensuite utilisé pour effectuer la classification. La position du maximum de probabilité indique l'angle de rotation de l'entrée. Nous évaluons plusieurs familles de filtres telles que celles utilisés dans la transformée scattering, des filtres orientables et des filtres Gabor. Nous présentons des résultats expérimentaux sur la façon dont l'approche méthodologique proposée permet de doter les architectures ''backbone'' de propriétés invariantes par rotation. Nous fournissons également une preuve de l'entraînablité d'une telle architecture.L'objectif principal est de réduire la taille d'un modèle de classification invariante par rotation sans sacrifier la précision et la qualité des résultats. Pour ce faire, nous proposons de nous concentrer sur l'intégration directe de la capacité d'invariance à la transformation de l'image par rotation dans l'architecture du réseau neuronal.Nous évaluons les résultats sur des ensembles de données simples et complexes en utilisant un réseau personnalisé et l'un des réseaux dorsaux bien connus et à la pointe de la technologie ResNet. Nous démontrons que le cadre d'invariance de rotation proposé permet d'obtenir des résultats de taux d'erreur de pointe sur des ensembles de données simples comme MNIST (2,05% contre 6,00% précédemment, quand formés sur des exemples en haut à droite) et surpassé les approches précédentes sur des ensembles de données complexes comme CIFAR-10 (21,50% contre 55,88% précédemment) tout en réduisant de plus de 50% le nombre de paramètres pouvant être entraînés à partir des méthodes de pointe actuelles. De plus, ces résultats sont obtenus sans techniques d'augmentation des données et avec de nouvelles capacités de prédiction angulaire.Ainsi, les résultats présentés ouvrent la possibilité d'utiliser ces réseaux dans des dispositifs aux ressources limitées tels que les plates-formes embarquées et les smartphones. En outre, cela ouvre l'opportunité d'utiliser ce concept dans des applications où l'invariance de rotation peut jouer son rôle mais où l'on rencontre souvent des ensembles de données relativement limités comme l'imagerie aérienne, la reconnaissance alimentaire et la reconnaissance faciale.