Extraction d’Information pour les réseaux de régulation de la graine chez Arabidopsis Thaliana.

Dialekti Valsamou

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Dialekti Valsamou
Direction :	Pierre Zweigenbaum, Claire Nédellec
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 17/01/2017
Etablissement(s) :	Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020) - Mathématiques et Informatique Appliquées du Génome à l'Environnement (Jouy-en-Josas, Yvelines)
	établissement opérateur d'inscription : Université Paris-Sud (1970-2019)
Jury :	Président / Présidente : Bertrand Dubreucq
	Examinateurs / Examinatrices : Pierre Zweigenbaum, Claire Nédellec, Bertrand Dubreucq, Pascale Sébillot, Isabelle Tellier, Jean-Philippe Vert
	Rapporteurs / Rapporteuses : Pascale Sébillot, Isabelle Tellier

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage automatique

Bioinformatique

Exploration de données

Systèmes d'information

Traitement automatique du langage naturel

Mots clés libres

Extraction d'information

Fouille de données

Traitement automatique de langues

Bioinformatique

Apprentissage automatique

Fouille de texte

Résumé

FR |

EN

Même si l’information est abondante dans le monde, l’information structurée, prête à être utilisée est rare. Ce travail propose l’Extraction d’Information (EI) comme une approche efficace pour la production de l’information structurée, utilisable sur la biologie, en présentant une tâche complète d’EI sur un organisme modèle, Arabidopsis thaliana. Un système d’EI se charge d’extraire les parties de texte les plus significatives et d’identifier leurs relations sémantiques. En collaboration avec des experts biologistes sur la plante A. Thaliana un modèle de connaissance a été conçu. Son objectif est de formaliser la connaissance nécessaire pour bien décrire le domaine du développement de la graine. Ce modèle contient toutes les entités et relations les connectant qui sont essentielles et peut être directement utilisé par des algorithmes. En parallèle ce modèle a été testé et appliqué sur un ensemble d’articles scientifiques du domaine, le corpus nécessaire pour l’entraînement de l’apprentissage automatique. Les experts ont annoté le texte en utilisant les entités et relations du modèle. Le modèle et le corpus annoté sont les premiers proposés pour le développement de la graine, et parmi les rares pour A. Thaliana, malgré son importance biologique. Ce modèle réconcilie les besoins d’avoir un modèle assez complexe pour bien décrirele domaine, et d’avoir assez de généralité pour pouvoir utiliser des méthodes d’apprentissage automatique. Une approche d’extraction de relations (AlvisRE) a également été élaborée et développée. Une fois les entités reconnues, l’extracteur de relations cherche à détecter les cas où le texte mentionne une relation entre elles, et identifier précisément de quel type de relation du modèle il s’agit. L’approche AlvisRE est basée sur la similarité textuelle et utilise à la fois des informations lexiques,syntactiques et sémantiques. Dans les expériences réalisées, AlvisRE donne des résultats qui sont équivalents et parfois supérieurs à l’état de l’art. En plus, AlvisRE a l’avantage de la modularité et adaptabilité en utilisant des informations sémantiques produites automatiquement. Ce dernier caractéristique permet d’attendre des performances équivalentes dans d’autres domaines.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Extraction d’Information pour les réseaux de régulation de la graine chez Arabidopsis Thaliana.

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Extraction d’Information pour les réseaux de régulation de la graine chez Arabidopsis Thaliana.

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses