Techniques d'extraction de connaissances en biodiversité

par Somsack Inthasone

Thèse de doctorat en Informatique

Sous la direction de Nicolas Pasquier et de Andrea Tettamanzi.

Soutenue le 02-04-2015

à Nice , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes) , en partenariat avec Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes) (laboratoire) et de Laboratoire d'Informatique- Signaux- et Systèmes de Sophia-Antipolis (I3S) / Projet MinD (laboratoire) .


  • Résumé

    Les données sur la biodiversité sont généralement représentées et stockées dans différents formats. Cela rend difficile pour les biologistes leur agrégation et leur intégration afin d'identifier et découvrir des connaissances pertinentes dans le but, par exemple, de classer efficacement des spécimens. Nous présentons ici l'entrepôt de données BioKET issu de la consolidation de données hétérogènes de différentes sources. Actuellement, le champ d'application de BioKET concerne la botanique. Sa construction a nécessité, notamment, d'identifier et analyser les ontologies et bases botaniques existantes afin de standardiser et lier les descripteurs utilisés dans BioKET. Nous avons également développé une méthodologie pour la construction de terminologies taxonomiques, ou thésaurus, à partir d'ontologies de plantes et d'informations géo-spatiales faisant autorité. Les données de biodiversité et botanique de quatre fournisseurs majeurs et de deux systèmes d'informations géo-spatiales ont été intégrées dans BioKET. L'utilité d'un tel entrepôt de données a été démontrée par l'application de méthodes d'extraction de modèles de connaissances, basées sur les approches classiques Apriori et de la fermeture de Galois, à des ensembles de données générées à partir de BioKET. En utilisant ces méthodes, des règles d'association et des clusters conceptuels ont été extraits pour l'analyse des statuts de risque de plantes endémiques au Laos et en Asie du Sud-Est. En outre, BioKET est interfacé avec d'autres applications et ressources, tel que l'outil GeoCAT pour l'évaluation géo-spatiale des facteurs de risques, afin de fournir un outil d'analyse performant pour les données de biodiversité.

  • Titre traduit

    Biodiversity knowledge extraction techniques (BioKET)


  • Résumé

    Biodiversity data are generally stored in different formats. This makes it difficult for biologists to combine and integrate them in order to retrieve useful information and discover novel knowledge for the purpose of, for example, efficiently classifying specimens. In this work, we present the BioKET data warehouse which is a consolidation of heterogeneous data stored in different formats and originating from different sources. For the time being, the scope of BioKET is botanical. Its construction required, among others things, to identify and analyze existing botanical ontologies, to standardize and relate terms in BioKET. We also developed a methodology for mapping and defining taxonomic terminologies, that are controlled vocabularies with hierarchical structures from authoritative plant ontologies, Google Maps, and OpenStreetMap geospatial information system. Data from four major biodiversity and botanical data providers and from the two previously mentioned geospatial information systems were then integrated in BioKET. The usefulness of such a data warehouse was demonstrated by applying classical knowledge pattern extraction methods, based on the classical Apriori and Galois closure based approaches, to several datasets generated from BioKET extracts. Using these methods, association rules and conceptual bi-clusters were extracted to analyze the risk status of plants endemic to Laos and Southeast Asia. Besides, BioKET is interfaced with other applications and resources, like the GeoCAT Geospatial Conservation Assessment Tool, to provide a powerful analysis tool for biodiversity data.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.