Couplage entre les bases de données factuelles et bases de données bibliographiques : Identification dans Medline des gènes décrits dans Flybase et application à l'extraction d'informations sur les interactions génétiques ou moléculaires à partir de publications

par Ambroise Ingold

Thèse de doctorat en Sciences de l'information et de la communication

Sous la direction de Luc Quoniam.

Soutenue en 2002

à Aix-Marseille 3 .


  • Résumé

    La thèse propose des solutions pour mettre automatiquement en relation des informations bibliographiques avec des informations factuelles. Il s'agit de documenter des encyclopédies en ligne avec des références bibliographiques ou d'extraire des informations directement à partir de la littérature scientifique. Nous avons pris l'exemple des gènes et de leurs interactions chez la mouche (Drosophile). Nous avons mis au point un logiciel qui permet d'identifier dans Medline des gènes décrits dans Flybase (encyclopédie sur la Drosophile) et de reconnaître les textes décrivant des interactions entre ces gènes. La difficulté dans l'automatisation de cette tâche réside dans la complexité de la nomenclature (existence d'alias et d'abréviations, composition de termes utilisant des noms de gènes. Etc. ), dans la confusion possible entre certains noms de gènes et des mots du vocabulaire courant et dans l'absence de mots clefs suffisamment univoques pour marquer les phrases décrivant une interaction.

  • Titre traduit

    Experiment in integration of factural databases and bibliographical databases : Gene identification in Medline from Flybase description, and application of information extraction about genetics and molecular interaction from publications


  • Résumé

    This thesis provides solutions to the problems of interaction between bibliographical information and factual information databases by informing on-line encyclopedias of other bibliographical references, and extracting information directly from on-line scientific literature. The case study we took was genes and their interactions in the fly "Drosophila" We created software to find sentences or phrases describing at least one gene's interaction, and to identify genes in Medline (a famous bibliographical database) from their descriptions in Flybase (an on-line encyclopedia of the fly). Difficulties in the computerization of this task were: The absence of high-quality keywords for sentences that describe interactions Possible confusion between some genes' names and common words Gene naming complexity: existence of alias' and abbreviations, composition of terms using names of genes,etc. The program was tested successfully, and the details of the implementation are given in the document.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 182 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 158-163

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Aix-Marseille (Marseille. Saint-Jérôme). Service commun de la documentation. Bibliothèque de sciences.
  • Disponible pour le PEB
  • Cote : T 2952
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.