Thèse soutenue

Techniques d'extraction de connaissances en biodiversité

FR  |  
EN
Auteur / Autrice : Somsack Inthasone
Direction : Nicolas PasquierAndrea Tettamanzi
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 02/04/2015
Etablissement(s) : Nice
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes) - Laboratoire d'Informatique- Signaux- et Systèmes de Sophia-Antipolis (I3S) / Projet MinD
Jury : Président / Présidente : Frédéric Precioso
Examinateurs / Examinatrices : Nicolas Pasquier, Andrea Tettamanzi, Frédéric Precioso, Dario Malchiodi, Engelbert Mephu-Nguifo, Patrick Coquillard
Rapporteurs / Rapporteuses : Dario Malchiodi, Engelbert Mephu-Nguifo, Patrick Coquillard

Résumé

FR  |  
EN

Les données sur la biodiversité sont généralement représentées et stockées dans différents formats. Cela rend difficile pour les biologistes leur agrégation et leur intégration afin d'identifier et découvrir des connaissances pertinentes dans le but, par exemple, de classer efficacement des spécimens. Nous présentons ici l'entrepôt de données BioKET issu de la consolidation de données hétérogènes de différentes sources. Actuellement, le champ d'application de BioKET concerne la botanique. Sa construction a nécessité, notamment, d'identifier et analyser les ontologies et bases botaniques existantes afin de standardiser et lier les descripteurs utilisés dans BioKET. Nous avons également développé une méthodologie pour la construction de terminologies taxonomiques, ou thésaurus, à partir d'ontologies de plantes et d'informations géo-spatiales faisant autorité. Les données de biodiversité et botanique de quatre fournisseurs majeurs et de deux systèmes d'informations géo-spatiales ont été intégrées dans BioKET. L'utilité d'un tel entrepôt de données a été démontrée par l'application de méthodes d'extraction de modèles de connaissances, basées sur les approches classiques Apriori et de la fermeture de Galois, à des ensembles de données générées à partir de BioKET. En utilisant ces méthodes, des règles d'association et des clusters conceptuels ont été extraits pour l'analyse des statuts de risque de plantes endémiques au Laos et en Asie du Sud-Est. En outre, BioKET est interfacé avec d'autres applications et ressources, tel que l'outil GeoCAT pour l'évaluation géo-spatiale des facteurs de risques, afin de fournir un outil d'analyse performant pour les données de biodiversité.