Predicative Analysis for Information Extraction : application to the biology domain

Zorana Ratkovic

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Analyse prédicative pour l'extraction d'information : application au domaine de la biologie

FR |

EN

Auteur / Autrice :	Zorana Ratkovic
Direction :	Thierry Poibeau
Type :	Thèse de doctorat
Discipline(s) :	Sciences du langage
Date :	Soutenance le 11/12/2014
Etablissement(s) :	Paris 3
Ecole(s) doctorale(s) :	École doctorale Langage et langues (Paris)
Partenaire(s) de recherche :	Laboratoire : Langues, textes, traitements informatiques, cognition (Montrouge, Hauts de Seine)
Jury :	Président / Présidente : Isabelle Tellier
	Examinateurs / Examinatrices : Thierry Poibeau, Isabelle Tellier, Udo Hahn, Claire Nédellec, Pierre Zweigenbaum, Nigel Collier

Mots clés

FR |

EN

Mots clés contrôlés

Informatique

Biologie

Exploration de données

Traitement automatique du langage naturel

Méthodes statistiques

Linguistique -- Informatique

Mots clés libres

Extraction d’information

Extraction de relation

Analyse syntaxique en dépendances

TAL

BioNLP

Résumé

FR |

EN

L’abondance de textes dans le domaine biomédical nécessite le recours à des méthodes de traitement automatique pour améliorer la recherche d’informations précises. L’extraction d’information (EI) vise précisément à extraire de l’information pertinente à partir de données non-structurées. Une grande partie des méthodes dans ce domaine se concentre sur les approches d’apprentissage automatique, en ayant recours à des traitements linguistiques profonds. L’analyse syntaxique joue notamment un rôle important, en fournissant une analyse précise des relations entre les éléments de la phrase.Cette thèse étudie le rôle de l’analyse syntaxique en dépendances dans le cadre d’applications d’EI dans le domaine biomédical. Elle comprend l’évaluation de différents analyseurs ainsi qu’une analyse détaillée des erreurs. Une fois l’analyseur le plus adapté sélectionné, les différentes étapes de traitement linguistique pour atteindre une EI de haute qualité, fondée sur la syntaxe, sont abordés : ces traitements incluent des étapes de pré-traitement (segmentation en mots) et des traitements linguistiques de plus haut niveau (lié à la sémantique et à l’analyse de la coréférence). Cette thèse explore également la manière dont les différents niveaux de traitement linguistique peuvent être représentés puis exploités par l’algorithme d’apprentissage. Enfin, partant du constat que le domaine biomédical est en fait extrêmement diversifié, cette thèse explore l’adaptation des techniques à différents sous-domaines, en utilisant des connaissances et des ressources déjà existantes. Les méthodes et les approches décrites sont explorées en utilisant deux corpus biomédicaux différents, montrant comment les résultats d’IE sont utilisés dans des tâches concrètes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Analyse prédicative pour l'extraction d'information : application au domaine de la biologie

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Analyse prédicative pour l'extraction d'information : application au domaine de la biologie

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses