Peuplement d'une base de connaissance fondé sur l'exploitation d'un graphe d'entités

par Md rashedur Rahman

Projet de thèse en Informatique

Sous la direction de Brigitte Grau et de Sophie Rosset.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , ILES - Information, Langue Ecrite et Signée (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 02-02-2015 .


  • Résumé

    La prolifération des documents émanant de sources multiples pose le problème de pouvoir synthétiser les informations qu'ils contiennent à propos d'un même sujet afin d'en avoir une vue récapitulative, et donc de savoir sélectionner de ces sources une information pertinente et fiable. La multiplicité des sources entraîne l'existence de documents variés quant au type de document (textes, discours...), au style d'écriture (blog, forum, tweet, broadcast, télévision...) et à la langue (anglais, français, chinois...). La fiabilité de l'information qu'ils contiennent est liée à leur origine. Notre but est de constituer des bases de connaissances permettant de décrire des personnes, produits (entités nommées). Nous décrirons ces entités par un ensemble d'attributs, dont les valeurs seront des entités nommées ou plus généralement des entités d'intérêt. Nous appelons entité d'intérêt une information factuelle pouvant compléter la base de connaissance sans être une entité nommée (i.e. profession, religion...). Nous identifierons ces entités à partir de faits extraits de multiples documents par agrégation et fusion de données. L'information contenue dans ces bases sera donc extraite de documents multi-sources, multi-lingues et multi-média : - Multi-source : différents type de documents (spontanés, préparés...) et émetteurs du document (institution, particulier, communauté…), - Multi-média : écrits, parole retranscrite, documents scannés, - Multi-lingues : plusieurs langues L'extraction d'information pour la constitution de bases de faits est une tâche qui peut être considérée comme semi-supervisée. Au lieu de définir a priori tous les types d'information cherchées dans des schémas structurés, on cherchera à définir dynamiquement ces schémas, ou une partie de ceux-ci, en fonction des informations trouvées et de leur caractérisation. On se rapproche ainsi des tâches KBP1 (Knowledge Base Population) et TREC2 Entity, issues de campagnes d'évaluation créées respectivement en 2009 et 1992. Sujet : La thèse portera sur la collecte des informations et leur structuration par agrégation. Ainsi, se poseront les problèmes de : - la sélection des informations selon l'entité étudiée et les caractéristiques demandées, - l'évaluation de la fiabilité de l'information, - l'évaluation de la pertinence (degré de nouveauté, rareté de l'information), - la détection de la présence de contradictions Les contradictions peuvent être liées à l'évolution temporelle d'un fait, d'une entité ; elles peuvent aussi être liées à des sources contradictoires et enfin elles peuvent provenir des traitements appliqués (les systèmes utilisés en amont). Ces critères amèneront à attribuer des scores aux faits retenus. Afin de savoir comment interpréter ces scores, pour un utilisateur voire une machine, il faudra être capable d'expliquer ou justifier le score obtenu, en gardant par exemple une trace de son calcul et des passages de documents les plus représentatifs, qui permettent ainsi de fournir un contexte d'interprétation aux faits extraits. Il conviendra également de tenir compte de l'hétérogénéité des données et des traitements effectués sur ces mêmes données.

  • Titre traduit

    Knowledge Base Population based on Entity Graph Analysis


  • Résumé

    Today the number of documents increases rapidly, and moreover they are produced by multiple sources that can be classified by type (texts, speech...), by style (blog, forum, tweet, broadcast news, broadcast conversations, community tv...) and by language (English, French, Chinese...). Reliability of the information contained in these documents depends on each kind of source. Thus, selecting relevant and reliable information from such documents and summarizing it is an open problem. Our goal is to build knowledge bases about persons, products... (i.e. Named Entities). We will describe those entities using attributes where values will be Named Entities and, more generally, Entities of Interest. We call Entities of Interest factual piece of knowledge that could fill the knowledge base without being Named Entities (i.e. profession, religion...). This knowledge will be extracted from facts provided by multiple documents. Thus the information will result from multi-source, multilingual and multimedia document extraction: - Multi-source: various types of documents (spontaneous, prepared...) and providers of documents (institution, individual, community...); - Multimedia: texts, speech, scanned documents; - Multilingual: different languages. The extracted facts will have to be combined by aggregation and data fusion. The work will deal with information identification, extraction and structuring, with a special focus on information validity assesment. Studied issues will deal with detection and classification of contradictions during the aggregation process, that will take into account assessment of information reliability, according to its origin and assessment of information relevance (degree of novelty, scarcity of information). Contradictions may be related to the temporal evolution of a fact or an entity. They may also be concerned with conflicting sources or with the processing that was applied to extract the information. Criteria will be defined based on a precise analysis of the environment (sources and systems). These criteria will lead to assigning scores to the facts presented in the knowledge base and to combine them. In order to know how to interpret these scores from a human point of view, they will have to be explained or justified, by keeping for example a record of the calculation or/and the most representative document extracts. That will provide a context facilitating the interpretation of the extracted and scored facts. Evaluation of such process will be handled by participating in international evaluation campaigns.