Construction de systèmes d'extraction d'information génériques pour une adaptation rapide à de nouveaux domaines

par Dorian Kodelja

Projet de thèse en Informatique

Sous la direction de Olivier Ferret et de Romaric BESANçON.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec Institut CEA LIST (laboratoire) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 19-10-2016 .


  • Résumé

    La réalisation d'un système d'extraction d'information pour un nouveau domaine est coûteuse en ressources humaines. Un des défis actuels dans le champ de l'extraction d'information à partir de textes est donc de développer des méthodes permettant de réduire autant que possible ce coût. Cet enjeu de recherche constitue également un enjeu industriel important : outre une économie de ressources, ces méthodes donnent en effet la possibilité de développer de nouveaux systèmes plus rapidement. La thèse proposée s'inscrit dans cette perspective au travers d'une approche combinant deux axes : d'une part la définition de processus génériques d'extraction d'information événementielle en mettant l'accent sur les analyses discursives, en particulier de natures référentielle et causale ; d'autre part, l'exploitation conjointe des résultats de ces processus et d'un ensemble limité d'exemples d'extraction donnés pour caractériser un domaine afin de spécialiser les processus génériques d'extraction pour ce domaine spécifique. Cette exploitation pourra en particulier s'appuyer sur le recoupement entre les exemples d'extraction et les résultats de processus d'extraction d'information non supervisés appliqués à des ensembles de textes importants mais non annotés. Elle pourra également exploiter les capacités de généralisation des représentations lexicales distribuées issues du Deep Learning.

  • Titre traduit

    Building generic information extraction systems for easy domain adaptation


  • Résumé

    Developing an information extraction system for a new domain is a time-consuming task. As a consequence, one of the current challenges in the field of information extraction from texts is to propose methods for reducing as much as possible the effort for developing a new system. This research problem is also a strong industrial issue as, beyond the cost reduction it can lead to, such methods make it possible to develop information extraction systems more quickly. The proposed thesis addresses this issue by adopting an approach based on two main axes: on one hand, the definition of generic information extraction processes for extracting events from texts, with a specific emphasis on discourse analyses targeting coreference and causal relationships; on the other hand, the use of the results of these processes jointly with a limited set of extraction examples for the considered domain in order to specialize the generic extraction processes for this domain. Concerning this second axis, two complementary lines of research are more particularly considered. The first one is the exploitation of unsupervised information extraction applied to large unannotated corpora in conjonction with the extraction examples. The other one is the use of distributed lexical representations coming from Deep Learning approaches for generalizing these examples.