Extraction d'information spatiale à partir de données textuelles non-standards

Sarah Zenasni

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Sarah Zenasni
Direction :	Maguelonne Teisseire, Mathieu Roche
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 05/01/2018
Etablissement(s) :	Montpellier
Ecole(s) doctorale(s) :	École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Territoires, Environnement, Télédétection et Information Spatiale (Montpellier)
Jury :	Président / Présidente : Carmen Gervet
	Examinateurs / Examinatrices : Maguelonne Teisseire, Mathieu Roche, Carmen Gervet, Cédrick Fairon, Christian Sallaberry, Eric Kergosien
	Rapporteurs / Rapporteuses : Cédrick Fairon, Christian Sallaberry

Mots clés

FR |

EN

Mots clés contrôlés

Traitement automatique du langage naturel

Système d'information géographique

Exploration de données

Mots clés libres

Fouille de texte

Information géographique

Traitement automatique du langage naturel

Résumé

FR |

EN

L’extraction d’information spatiale à partir de données textuelles est désormais un sujet de recherche important dans le domaine du Traitement Automatique du Langage Naturel (TALN). Elle répond à un besoin devenu incontournable dans la société de l’information, en particulier pour améliorer l’efficacité des systèmes de Recherche d’Information (RI) pour différentes applications (tourisme, aménagement du territoire, analyse d’opinion, etc.). De tels systèmes demandent une analyse fine des informations spatiales contenues dans les données textuelles disponibles (pages web, courriels, tweets, SMS, etc.). Cependant, la multitude et la variété de ces données ainsi que l’émergence régulière de nouvelles formes d’écriture rendent difficile l’extraction automatique d’information à partir de corpus souvent peu standards d’un point de vue lexical voire syntaxique.Afin de relever ces défis, nous proposons, dans cette thèse, des approches originales de fouille de textes permettant l’identification automatique de nouvelles variantes d’entités et relations spatiales à partir de données textuelles issues de la communication médiée. Ces approches sont fondées sur trois principales contributions qui sont cruciales pour fournir des méthodes de navigation intelligente. Notre première contribution se concentre sur la problématique de reconnaissance et d’extraction des entités spatiales à partir de corpus de messages courts (SMS, tweets) marqués par une écriture peu standard. La deuxième contribution est dédiée à l’identification de nouvelles formes/variantes de relations spatiales à partir de ces corpus spécifiques. Enfin, la troisième contribution concerne l’identification des relations sémantiques associées à l’information spatiale contenue dans les textes. Les évaluations menées sur des corpus réels, principalement en français (SMS, tweets, presse), soulignent l’intérêt de ces contributions. Ces dernières permettent d’enrichir la typologie des relations spatiales définies dans la communauté scientifique et, plus largement, de décrire finement l’information spatiale véhiculée dans les données textuelles non standards issues d’une communication médiée aujourd’hui foisonnante.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Extraction d'information spatiale à partir de données textuelles non-standards

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Extraction d'information spatiale à partir de données textuelles non-standards

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses