Thèse soutenue

Classification non supervisée de gros échantillons de spectres de galaxies

FR  |  
EN
Auteur / Autrice : Julien Dubois
Direction : Didier Fraix-Burnet
Type : Thèse de doctorat
Discipline(s) : Astrophysique et milieux dilués
Date : Soutenance le 05/09/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale physique (Grenoble ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Institut de planétologie et d'astrophysique de Grenoble
Jury : Président / Présidente : Stéphane Arnouts
Examinateurs / Examinatrices : Charles Bouveyron, Marc Huertas-Company, Estelle Moraux
Rapporteurs / Rapporteuses : Stéphane Arnouts, Iryna Vavilova

Résumé

FR  |  
EN

Peu après leur découverte, les galaxies ont été classées selon des schémas morphologiques qui sont toujours d'actualité en raison de leur corrélation avec certaines propriétés physiques. Cependant, grâce à de nombreuses avancées technologiques, il est aujourd'hui possible d'aborder la classification des galaxies à travers le prisme de la spectroscopie. Les spectres contiennent beaucoup plus d'informations que la morphologie et pourraient donc être utilisés pour obtenir une classification plus fine et pertinente. Cette perspective encore inexplorée, mais pourtant prometteuse, est précisément l'objet de ma thèse.Contrairement aux images de galaxies, les spectres ne se prêtent pas à une classification visuelle en raison de leur complexité. De plus, la quantité de données est telle que de nombreux processus doivent être automatisés ; c'est là que l'apprentissage automatique et les méthodes statistiques entrent en jeu. Au cours de ma thèse, je me suis concentré sur un algorithme de classification appelé Fisher-EM et j'ai exploré son application à ce problème astrophysique. Cet algorithme, qui utilise un modèle de mélange gaussien dans un sous-espace latent discriminant, a été choisi pour sa nature non supervisée et sa capacité à traiter des données de haute dimension, ce qui le rend parfaitement adapté au problème.La première partie de ma thèse a consisté à étudier la puissance et les limites de Fisher-EM sur des données simulées. J'ai utilisé un échantillon de 12 000 spectres optiques de galaxies, généré précédemment avec le code CIGALE, et je l'ai adapté pour cette étude. La nature simulée des données m'a permis de tirer des conclusions directes sur la pertinence physique des classifications produites en étudiant la distribution des paramètres de simulation au sein des classes. Je me suis d'abord concentré sur les données sans bruit et j'ai conclu que Fisher-EM était capable d'extraire avec succès des informations physiques utiles dans les spectres pour construire une classification pertinente. J'ai ensuite étudié l'effet du bruit sur le processus de classification en ajoutant du bruit artificiel aux données simulées. J'ai montré que les résultats restaient très robustes jusqu'à un rapport signal-sur-bruit (S/N) de 3 et qu'une discrimination significative était toujours obtenue jusqu'à un S/N de 1.Par la suite, j'ai étudié un échantillon de 80 000 spectres optiques de galaxies de redshift 0,4 < z < 1,2 provenant du VIMOS Public Extragalactic Redshift Survey. Aux données observées se mélangent des effets instrumentaux, du bruit et la contamination par l'atmosphère, qui ont dû être traités avec soin pour optimiser les résultats. L'échantillon a été divisé en 26 sous-échantillons afin de limiter la perte d'information due au redshift, et chacun de ces sous-échantillons a été classé indépendamment des autres. Les liens entre les classes ont ensuite été déterminés à l'aide de l'algorithme k-Nearest Neighbours, créant ainsi une structure arborescente révélant les chemins evolutifs des classes. Trois sous-arbres ont émergé, séparant les galaxies passives, de celles avec une formation stellaire modérée, et d'autres traversant des événements de formation stellaire intense. Une discrimination plus fine est faite le long des branches, isolant, entre autres, des galaxies post-starburst et possiblement des AGNs.Ce travail de thèse met en évidence une approche entièrement automatisée, capable de produire des classifications spectroscopiques de galaxies physiquement pertinentes. Pour la première fois, la diversité des spectres optiques des galaxies à des redshifts 0.4 < z < 1.2 a été cartographiée de manière non supervisée et automatisée, et leur évolution au cours de l'histoire de l'Univers a été étudiée. Avec les nouvelles observations à très haut redshift que le JWST fournira, ce travail ouvre des perspectives nouvelles et prometteuses pour élucider les questions restantes atour de la formation et l'évolution des galaxies.