Thèse soutenue

Contribution à la construction d’ontologies et à la recherche d’information : application au domaine médical
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Khadim Drame
Direction : Roger SalamonGayo DialloFleur Mougin
Type : Thèse de doctorat
Discipline(s) : Santé publique. Option Informatique et Santé
Date : Soutenance le 10/12/2014
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale Sociétés, politique, santé publique (Bordeaux)
Partenaire(s) de recherche : Etablissement d'accueil : Université Bordeaux-II (1971-2013)
Laboratoire : Université de Bordeaux. Centre de recherche en épidémiologie et biostatistique
Jury : Examinateurs / Examinatrices : Guy Melançon, Nathalie Hernandez, Jean-François Dartigues
Rapporteurs / Rapporteuses : Moussa Lô, Pierre Zweigenbaum

Résumé

FR  |  
EN

Ce travail vise à permettre un accès efficace à des informations pertinentes malgré le volume croissant des données disponibles au format électronique. Pour cela, nous avons étudié l’apport d’une ontologie au sein d’un système de recherche d'information (RI).Nous avons tout d’abord décrit une méthodologie de construction d’ontologies. Ainsi, nous avons proposé une méthode mixte combinant des techniques de traitement automatique des langues pour extraire des connaissances à partir de textes et la réutilisation de ressources sémantiques existantes pour l’étape de conceptualisation. Nous avons par ailleurs développé une méthode d’alignement de termes français-anglais pour l’enrichissement terminologique de l’ontologie. L’application de notre méthodologie a permis de créer une ontologie bilingue de la maladie d’Alzheimer.Ensuite, nous avons élaboré des algorithmes pour supporter la RI sémantique guidée par une ontologie. Les concepts issus d’une ontologie ont été utilisés pour décrire automatiquement les documents mais aussi pour reformuler les requêtes. Nous nous sommes intéressés à : 1) l’identification de concepts représentatifs dans des corpus, 2) leur désambiguïsation, 3), leur pondération selon le modèle vectoriel, adapté aux concepts et 4) l’expansion de requêtes. Ces propositions ont permis de mettre en œuvre un portail de RI sémantique dédié à la maladie d’Alzheimer. Par ailleurs, le contenu des documents à indexer n’étant pas toujours accessible dans leur ensemble, nous avons exploité des informations incomplètes pour déterminer les concepts pertinents permettant malgré tout de décrire les documents. Pour cela, nous avons proposé deux méthodes de classification de documents issus d’un large corpus, l’une basée sur l’algorithme des k plus proches voisins et l’autre sur l’analyse sémantique explicite. Ces méthodes ont été évaluées sur de larges collections de documents biomédicaux fournies lors d’un challenge international.