Modeling the 3D Milky Way using Machine Learning with Gaia and infrared surveys

par David Cornu

Thèse de doctorat en Astrophysique

Sous la direction de Annie Robin et de Julien Montillaud.

Soutenue le 29-09-2020

à Bourgogne Franche-Comté , dans le cadre de École doctorale Carnot-Pasteur , en partenariat avec Institut UTINAM (Univers, transport, interfaces, nanostructures, atmosphère et environnement, molécules) (Besançon) (laboratoire) , Université de Franche-Comté (Etablissement de préparation) et de Univers- Transport- Interfaces- Nanostructures- Atmosphère et environnement- Molécules (UMR 6213) / UTINAM (laboratoire) .

  • Titre traduit

    Modélisation de la voie lactée en 3D par machine learning avec les données infrarouges et Gaia


  • Résumé

    La structure à grande échelle de la Voie-Lactée (VL) n'est actuellement toujours pas parfaitement contrainte. Contrairement aux autres galaxies, il est difficile d'observer directement sa structure du fait de notre appartenance à celle-ci. La confusion entre les étoiles et l'occultation de la lumière par le milieu interstellaire (MIS) sont les principales sources de difficulté qui empêchent la reconstruction de la structure sous-jacente de la VL. Par ailleurs, de plus en plus de relevés astronomiques de grande ampleur sont disponibles et permettent de surmonter ces difficultés. Le relevé Gaia et ses 1.6 milliards mesures de distances aux étoiles est le nouvel outil de prédilection pour l’étude de la structure de la VL et l’analyse des populations stellaires. Ces nouvelles données peuvent être combinées avec d’autres grands relevés infrarouges (IR) afin d’effectuer des mesures à des distances jusque-là inégalées. Par ailleurs, le nombre d’applications reposant sur des méthodes d’apprentissage machine (AM) s’est envolé ces vingt dernières années et celles-ci sont de plus en plus employées en astronomie. Ces méthodes sont capables d’automatiser la résolution de problèmes complexes ou encore d’extraire efficacement des statistiques sur de grands jeux de données.Dans cette étude, nous commençons par décrire la construction d’un outil de classification par AM utilisé pour améliorer les méthodes classiques de classification des Jeunes Objets Stellaires (JOS). Comme les étoiles naissent dans un environnement interstellaire dense, il est possible d’utiliser les plus jeunes d’entre elles, qui n’ont pas encore eu le temps de s’éloigner de leur lieux de formation, afin d’identifier les structures denses du MIS. La combinaison des JOS et des distances mesurées par Gaia permet alors de reconstruire la structure 3D des nuages denses. Notre méthode de classification par AM est basée sur les réseaux de neurones artificiels et se sert des données du télescope spatial Spitzer pour reconstruire automatiquement la classification des JOS sur la base d’une liste d’exemples. Nous détaillons la construction des jeux de données associés ainsi que l’effet du déséquilibre entre les classes, ce qui permet d’optimiser les prédictions du réseau et d’estimer la précision associée. Cette méthode est capable d’identifier des JOS dans de très grands relevés tout en fournissant une probabilité d’appartenance pour chacun des objets testés. Celle-ci peut alors être utilisée pour retenir les objets les plus fiables afin de reconstruire la structure des nuages.Dans une seconde partie, nous présentons une méthode permettant de reconstruire la distribution 3D de l’extinction dans la VL et reposant sur des réseaux de neurones convolutifs. Cette approche permet de prédire des profils d’extinction sur la base de données IR provenant du relevé 2MASS. Ce réseau est entraîné à l’aide du modèle de la Galaxie de Besançon afin de reproduire la distribution en distance de l’extinction à grande échelle en s’appuyant sur la comparaison entre le modèle et les données observées. Nous avons ainsi reconstruit une grande portion du plan Galactique dans la région du bras de la Carène, et avons montré que notre prédiction est compétitive avec d’autres cartes d’extinction 3D qui font référence. Nos résultats sont notamment capables de prédire des structures spatialement cohérentes, et parviennent à réduire les artefacts fréquents dits ``doigts de Dieu''. Cette méthode est parvenue à résoudre des structures distantes jusqu’à 10 kpc avec une résolution formelle de 100 pc. Notre réseau est également capable de combiner les données 2MASS et Gaia sans avoir recours à une identification croisée. Cela permet d’utiliser automatiquement le jeu de données le plus pertinent en fonction de la distance. Les résultats de cette prédiction combinée sont encourageants et ouvrent la voie à de nouvelles reconstructions du plan Galactique en combinant davantage de jeux de données.


  • Résumé

    The Milky Way (MW) large-scale structure is still not under very strong observational constraints. Studying the morphology of other galaxies is straightforward but the observation of our home galaxy is made difficult by our internal viewpoint. Stellar confusion and screening by interstellar matter are strong observational limitations to assess the underlying 3D structure of the MW. At the same time, very large-scale astronomical surveys are made available and are expected to allow new studies to overcome the previous limitations. The Gaia survey that contains around 1.6 billion star distances is the new flagship of MW structure and stellar population analyses, and can be combined with other large-scale infrared (IR) surveys to provide unprecedented long distance measurements inside the Galactic plane. Concurrently, the past two decades have seen an explosion of the use of Machine Learning (ML) methods that are also increasingly employed in astronomy. With these methods it is possible to automatize complex problem solving and efficient extraction of statistical information from very large datasets.In the present work we first describe our construction of a ML classifier used to improve a widely adopted classification scheme for Young Stellar Object (YSO) candidates. Stars being born in dense interstellar environment, the youngest ones that did not had time to move away from their formation location are a probe of the densest structures of the interstellar medium. The combination of YSO identification and Gaia distance measurements then enables the reconstruction of dense cloud structures in 3D. Our ML classifier is based on Artificial Neural Networks (ANN) and uses IR data from the Spitzer space telescope to reconstruct the YSO classification automatically from given examples. We extensively explore dataset constructions and the effect of imbalanced classes in order to optimize our ANN prediction and to provide reliable estimates of its accuracy for each class. Our method is suitable for large-scale YSO candidate identification and provides a membership probability for each object. This probability can be used to select the most reliable objects for subsequent applications like cloud structure reconstruction.In a second part, we present a new method for reconstructing the 3D extinction distribution of the MW and that is based on Convolutional Neural Networks (CNN). With this approach it is possible to efficiently predict individual line of sight extinction profiles using IR data from the 2MASS survey. The CNN is trained using a large-scale Galactic model, the Besançon Galaxy Model, and learns to infer the extinction distance distribution by comparing results of the model with observed data. This method has been employed to reconstruct a large Galactic plane portion toward the Carina arm and has demonstrated competitive predictions with other state-of-the-art 3D extinction maps. Our results are noticeably predicting spatially coherent structures and significantly reduced artifacts that are frequent in maps using similar datasets. We show that this method is able to resolve distant structures up to 10 kpc with a formal resolution of 100 pc. Our CNN was found to be capable of combining 2MASS and Gaia datasets without the necessity of a cross match. This allows the network to use relevant information from each dataset depending on the distance in an automated fashion. The results from this combined prediction are encouraging and open the possibility for future full Galactic plane prediction using a larger combination of various datasets.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Autre version

Cette thèse a donné lieu à une publication

Modeling the 3D Milky Way using Machine Learning with Gaia and infrared surveys


Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque universitaire électronique, Besançon.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.

Consulter en bibliothèque

Cette thèse a donné lieu à une publication

Informations

  • Sous le titre : Modeling the 3D Milky Way using Machine Learning with Gaia and infrared surveys
  • Détails : 1 vol. (277 p.)
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.