Approches d'apprentissage profond faiblement supervisé pour la construction d'une base de connaissance géologique et pétro-physique à partir de documents hétérogènes.

par Molood Arman

Projet de thèse en Informatique

Sous la direction de Nacéra Seghouani bennacer, Francesca Bugiotti et de Sylvain Wlodarczyk.

Thèses en préparation à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec LRI - Laboratoire de Recherche en Informatique (laboratoire) , MODHEL - Modélisation Hétérogène (equipe de recherche) et de CentraleSupélec (2015-....) (établissement de préparation de la thèse) depuis le 15-03-2019 .


  • Résumé

    Cette proposition de thèse se place dans le cadre d'une collaboration entre l'entreprise Schlumberger et le Laboratoire de Recherche en Informatique (LRI) et CentraleSupélec(CS). Schlumberger est actuellement le premier fournisseur mondial proposant des solutions en matière de technologie, de gestion de projet et d'information à l'industrie pétrolière et gazière. L'entreprise compte environ 108 000 employés représentant 140 nationalités et travaillant sur plus de 85 pays. Schlumberger offre à l'industrie pétrolière et gazière la plus ample variété de produits et de services de l'exploration à la production. L'un de ces produits est le logiciel TechLog développé à Montpellier qui permet de visualiser les différentes diagraphies obtenues et qui propose différentes méthodes d'interprétation afin de réaliser l'étude pétro-physique d'un puits ou d'un ensemble de puits. Le sujet que nous proposons pour cette thèse est étroitement lié au développement de la plateforme High Performance Data Analysis (HPDA) sur Google Cloud dédiée à l'interprétation automatique de données diagraphiques et est en complète adéquation avec la stratégie de recherche des compagnies pétrolières et particulièrement Schlumberger. Ce projet de recherche sera d'une part encadrée par Nacéra Seghouani Bennacer(*) et Francesca Bugiotti(**) professeures à CS et membres du laboratoire LRI et dont les compétences sont étroitement liés à l'extraction d'information à partir de données (structurées, textuelles, multilingues, massives, non réconciliées), la construction de modèles d'apprentissage à partir de ces données ainsi que les modèles de représentation efficaces de données multi-sources et massives. D'autre part, ce projet sera encadré par Sylvain Wlodarczyk manager du pôle R&D Data Science à Schlumberger Montpellier (MpTC). De nombreuses collaborations sont en cours dans différents contextes entre pôle R&D Data Science à Schlumberger Montpellier et CS à savoir : une étude industrielle pour créer une base de données NoSQL distribuée sur le cloud pour analyser les diagraphies. Cette thèse se fera dans la continuité d'une thèse CIFRE (avec le laboratoire de mathématique de Montpellier (IMAG)) d'un étudiant de CS dont la soutenance est prévue en 2018 portant sur l'analyse statistique et l'interprétation automatique de données diagraphiques pétrolières différées à l'aide du calcul haute performance. L'interprétation de données diagraphiques différées est une étape fondamentale dans l'industrie pétrolière pour calculer les caractéristiques pétro-physiques des réservoirs et en estimer les réserves. Une diagraphie consiste à mesurer, à l'aide de différentes sondes, les caractéristiques des roches traversées lors d'un forage en fonction de la profondeur et les caractéristiques d'une formation géologique telle que : (1) le Gamma Ray qui mesure différents types de minéraux radioactifs (le potassium, l'uranium et le thorium ; (2) la densité volumique qui est liée à la porosité par neutron ; (3) les caractéristiques soniques qui mesurent essentiellement sur la lithologie et la porosité ; (4) et la résistivité qui renseigne sur la saturation de fluides. Les diagraphies sont nécessaires afin de valider les analyses préliminaires qui sont souvent sismiques. Si l'analyse des diagraphies se révèle prometteuse, on assiste alors à une phase d'essais de puits pour estimer leur rentabilité. L'environnement des réservoirs à étudier est de plus en plus complexe, ce qui induit une augmentation de l'hétérogénéité des sources de données, de la structure et du format des données (image, tableaux, textes) ainsi que leur volume. Le pétro-physicien qui analyse les diagraphies doit connaitre l'environnement géologique afin de paramétrer au mieux ces modèles de calcul de propriétés pétro-physiques comme par exemple les modèles de prédiction de perméabilité7 ou de volumétrie, il doit aussi récupérer des informations supplémentaires qui ne sont pas mesurables par les diagraphies obtenues en laboratoire sur des échantillons de roches. Par exemple on peut arriver à déterminer la surface d'une formation géologique, comme le kimmeridgian, en partant de sa position aux puits. La recherche de ces informations est souvent ardue car il n'existe pas de standard pour les récupérer et le pétro-physicien fait alors souvent des hypothèses faute d'information. Ces informations géologiques sont souvent récupérées en analysant la boue obtenue lors de forages préalables aux mesures diagraphiques ou peuvent provenir des études géologiques. Ces analyses sont stockées dans documents non-structurés sous forme de rapport et peuvent être assimilés à des dark data car elles sont rarement exploitées parce qu'elles proviennent de différents opérateurs et sont étalées sur de longues périodes de temps qui correspond au processus d'évaluation géologique jusqu'au forage. Cette période peut durer plusieurs années. Les études qui ont été réalisées dans les réservoirs voisins sont aussi d'importance capitale et peuvent remonter à plusieurs dizaines d'années. Les documents sont donc hétérogènes et ne sont pas actuellement exploités dans les études pétro-physiques. La révolution qui s'opère avec le HPDA (High Performance Data Analysis) et le deep learning permet de créer ou d'explorer des algorithmes permettant de fouiller ce grand nombre de documents disponibles afin d'extraire automatiquement les informations géologiques vitales à la caractérisation de réservoirs complexes.

  • Titre traduit

    Weak supervised Deep learning approaches for building a geological and petro-physical knowledge base from heterogeneous sources.


  • Résumé

    This thesis proposal is part of a collaboration between Schlumberger and the Research Laboratory in Computer Science (LRI) and CentraleSupélec (CS). Schlumberger is currently the world's leading provider of technology, project management and information solutions to the oil and gas industry. The company has approximately 108,000 employees representing 140 nationalities and working in more than 85 countries. Schlumberger offers the oil and gas industry the widest variety of products and services from exploration to production. One of these products is the TechLog software developed in Montpellier which allows to visualize the various logs obtained and which proposes different methods of interpretation to carry out the petro-physical study of a well or a set of wells. The subject that we propose for this thesis is closely related to the development of the platform High Performance Data Analysis (HPDA) on Google Cloud dedicated to the automatic interpretation of log data and is in complete adequacy with the research strategy of the oil companies and particularly Schlumberger. This research project will be supervised by Nacéra Seghouani Bennacer (*) and Francesca Bugiotti (**), professors at CS and members of the LRI laboratory, whose skills are closely linked to extracting information from data. (structured, textual, multilingual, massive, non-reconciled), the construction of learning models based on these data as well as efficient representation models of multi-source and massive data. On the other hand, this project will be supervised by Sylvain Wlodarczyk, R & D Data Science Manager at Schlumberger Montpellier (MpTC). Numerous collaborations are underway in different contexts between R & D Data Science at Schlumberger Montpellier and CS, namely: an industrial study to create a NoSQL database distributed on the cloud to analyze logs. This thesis will be in the continuity of a CIFRE thesis (with the Montpellier Mathematical Laboratory (IMAG)) of a CS student whose defense is scheduled in 2018 on statistical analysis and automatic interpretation of data. Delayed oil logging using high performance computing. The interpretation of lagging log data is a fundamental step in the oil industry to calculate the petrophysical characteristics of reservoirs and estimate their reserves. Logging consists of measuring, using different probes, the characteristics of rocks traversed during drilling as a function of depth and the characteristics of a geological formation such as: (1) Gamma Ray, which measures different types radioactive minerals (potassium, uranium, and thorium; (2) density density that is related to porosity per neutron; (3) sonic characteristics that primarily measure lithology and porosity; (4) and resistivity that provides information on fluid saturation Logging is required to validate preliminary analyzes that are often seismic If log analysis is promising, then a well test phase is conducted to estimate the profitability. The environment of the reservoirs to be studied is more and more complex, which leads to an increase in the heterogeneity of the data sources, the structure and the format of the data (image, tables, texts) as well as their volume. The petro-physicist who analyzes the logs must know the geological environment in order to better parameterize these models of computation of petrophysical properties such as models of permeability7 or volumetric prediction, he must also recover additional information which are not measurable by laboratory logging of rock samples. For example one can arrive at determining the surface of a geological formation, like kimmeridgian, starting from its position with the wells. The search for this information is often difficult because there is no standard to recover it and the petro-physicist often makes assumptions for lack of information. This geological information is often retrieved by analyzing the mud obtained during drilling prior to logging measurements or can come from geological studies. These analyzes are stored in unstructured documents in the form of reports and can be assimilated to dark data because they are rarely used because they come from different operators and are spread over long periods of time corresponding to the evaluation process. geological until drilling. This period can last several years. Studies that have been carried out in neighboring reservoirs are also of great importance.