Désambiguïsation des entités spatiales pour l'indexation, la recherche d'information et la mise en relation des données hétérogènes (images satellites et textes)

par Yasmine Mansour

Projet de thèse en Informatique

Sous la direction de Maguelonne Teisseire et de Mathieu Roche.

Thèses en préparation à Montpellier , dans le cadre de École Doctorale Information, Structures, Systèmes (Montpellier ; 2015) , en partenariat avec TETIS - Télédétection Environnement Télédetection et Information Spatiale (laboratoire) et de Axe SISO - Système d'Information Spatialisée, modélisation, extraction et diffusion des dOnnées (equipe de recherche) depuis le 01-10-2016 .


  • Résumé

    L'identification des territoires reste un problème difficile car leurs pourtours sont propres à chaque communauté ou groupe d'acteurs impliqués. La difficulté s'accroît selon les différentes régions et cultures car il n'existe pas nécessairement une délimitation explicite et uniforme. L'extraction d'informations spatiales au sein des documents est un premier pas pour définir une méthode de découverte automatique de la perception des territoires qui reste un enjeu majeur dans le contexte de l'aménagement et des débats publics associés. De nombreuses méthodes de la littérature utilisent des méthodes d'apprentissage supervisé pour l'identification d'entités nommées en général et des entités spatiales en particulier à partir de données textuelles. D'autres approches reposent sur des méthodes symboliques à base de règles. Ce type d'approche a été mis en place au sein de l'UMR TETIS. De plus, des combinaisons ont été proposées par notre équipe afin de distinguer les Organisations et les Entités Spatiales présentes dans des textes. Dans le cadre de l'identification des Entités Spatiales, un problème difficile est en effet lié à la désambiguisation. Outre l'ambiguité entre Organisations et Entités Spatiales, il existe des ambiguïtés propres aux toponymes en eux mêmes. Le travail demandé pour ce projet de thèse est aussi de s'intéresser à de telles ambiguïtés dans un objectif d'indexation et/ou de recherche d'information (raffinement de requêtes). Les travaux consisteront à proposer des méthodes originales de fouille de textes pour traiter, par exemple par apprentissage actif, différents types de désambiguisation : désambiguisation des toponymes (c'est-à-dire, un même toponyme peut correspondre à des lieux différents), désambiguisation entre types d'entités nommées (distinction Entités Spatiales / Organisations).

  • Titre traduit

    Desambguisation of spatial entities for indexing, information retrieval and linking heterogenous data (satellite images and text).


  • Résumé

    The identification of territories remains a difficult problem because their edges are unique to each community or group involved. The difficulty increases as different regions and cultures because it is not necessarily an explicit and uniform delimitation. The extraction of spatial information within documents is the first step to define an automatic discovery method of collecting territories remains a major challenge in the context of development and public debate associated. Many methods in the literature using supervised learning methods for the identification of named entities in general and particularly spatial entities from text data. Other approaches based on symbolic methods to basic rules. This approach was developed within the UMR TETIS. Furthermore, the combinations have been proposed by our team in order to distinguish Organizations and Space entities present in the texts. As part of the identification of Spatial Entities, a difficult problem is indeed related to the disambiguation. In addition to the ambiguity between organizations and Space entities, there are ambiguities inherent in the names themselves. The work required for this PhD project is to focus on such ambiguities in a goal indexing and / or search for information (refinement of queries). Work includes propose original text mining methods to treat, for example by active learning, different types of disambiguation: disambiguation of names (that is to say, the same place name can correspond to different places), disambiguation between types of named entities (distinction Spacial entities / Organizations).