Thèse soutenue

Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique

FR  |  
EN
Auteur / Autrice : Cyril Grouin
Direction : Marie-Christine JaulentPierre Zweigenbaum
Type : Thèse de doctorat
Discipline(s) : Informatique Biomédicale
Date : Soutenance en 2013
Etablissement(s) : Paris 6

Résumé

FR  |  
EN

Ce travail porte sur l'anonymisation automatique de comptes rendus cliniques. L'anonymisation consiste à masquer les informations personnelles présentes dans les documents tout en préservant les informations cliniques. Cette étape est obligatoire pour utiliser des documents cliniques en dehors du parcours de soins, qu'il s'agisse de publication de cas d'étude ou en recherche scientifique (mise au point d'outils informatiques de traitement du contenu des dossiers, recherche de cas similaire, etc. ). Nous avons défini douze catégories d'informations à traiter : nominatives (noms, prénoms, etc. ) et numériques (âges, dates, codes postaux, etc. ). Deux approches ont été utilisées pour anonymiser les documents, l'une dite "symbolique", à base de connaissances d'expert formalisées par des expressions régulières et la projection de lexiques, l'autre par apprentissage statistique au moyen de CRF de chaîne linéaire. Plusieurs expériences ont été menées parmi lesquelles l'utilisation simple ou enchaînée de chacune des deux approches. Nous obtenons nos meilleurs résultats (F-mesure globale=0,922) en enchaînant les deux méthodes avec rassemblement des noms et prénoms en une seule catégorie (pour cette catégorie : rappel=0,953 et F-mesure=0,931). Ce travail de thèse s'accompagne de la production de plusieurs ressources : un guide d'annotation, un corpus de référence de 562 documents dont 100 annotés en double avec adjudication et calculs de taux d'accord inter-annotateurs (K=0,807 avant fusion) et un corpus anonymisé de 17000 comptes rendus cliniques.