Détection précoce de la maladie de Parkinson par l'analyse de la voix et corrélations avec la neuroimagerie

par Laetitia Jeancolas

Thèse de doctorat en Traitement du signal et des images

Soutenue le 04-12-2019

à l'Université Paris-Saclay (ComUE) , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec Télécom SudParis (France) (laboratoire) , Institut national des télécommunications (Evry) (établissement de préparation de la thèse) , ARMEDIA / ARMEDIA-SAMOVAR (laboratoire) et de Département Electronique et Physique / EPH (laboratoire) .

Le président du jury était Laurence Devillers.

Le jury était composé de Dijana Petrovska-Delacrétaz, Björn Schuller, Chafic Mokbel, Serge Pinto, Stéphane Lehéricy.

Les rapporteurs étaient Björn Schuller, Chafic Mokbel.


  • Résumé

    Les modifications de la voix, prenant la forme de dysarthrie hypokinétique, sont un des premiers symptômes à apparaître dans la maladie de Parkinson (MP). Un grand nombre de publications existent sur la détection de MP par l'analyse de la voix, mais peu se sont intéressées spécifiquement au stade débutant. D'autre part, à notre connaissance, aucune étude n'avait été publiée sur la détection de MP via des enregistrements issus du réseau téléphonique. L'objectif de cette thèse a été d'étudier les modifications de la voix aux stades débutant et préclinique de la maladie de Parkinson, et de développer des modèles de détection précoce automatique et de suivi de cette maladie. Le but à long terme étant de pouvoir construire un outil de diagnostic précoce et de suivi, peu couteux, utilisable par les médecins en cabinet, et de manière encore plus intéressante, à partir de n'importe quel téléphone. La première étape a été de constituer une grande base de données voix de plus de 200 locuteurs français, comprenant des sujets MP débutants, des sujets sains et des sujets atteints de trouble idiopathique du comportement en sommeil paradoxal (iRBD), pouvant être considérés comme au stade préclinique de la maladie de Parkinson. Les participants ont effectué différentes tâches vocales enregistrées avec un microphone professionnel et avec le microphone interne d'un ordinateur. De plus, une fois par mois, ils ont également effectué ces tâches en appelant un servant vocal interactif à partir de leur propre téléphone. Nous avons étudié les effets de la qualité des microphones, du type de tâches, du genre, et de la méthode de classification. Nous avons analysé ces enregistrements vocaux par le biais de trois méthodes d'analyses différentes, couvrant différentes échelles de temps. Nous avons commencé avec des coefficients cepstraux et des modèles de mélange gaussien (GMM). Ensuite nous avons adapté la méthodologie des x-vecteurs (qui n'avait jamais été utilisée pour la détection de MP), puis nous avons extrait des paramètres globaux que nous avons classés avec des machines à vecteurs de support (SVM). Nous avons constaté des perturbations vocales aux stades débutant et préclinique de MP dans plusieurs domaines phonétiques, tels que l'articulation, la prosodie, la fluence verbale et les capacités rythmiques. Avec les enregistrements du microphone professionnel, nous sommes parvenus à détecter les hommes MP débutants avec une précision (Acc) de 89%, à partir de 6min de lecture, monologue et répétitions rapides et lentes de syllabes. Concernant les femmes, nous avons atteint Acc=70% à partir d'1min de monologue. Avec les enregistrements téléphoniques, nous avons obtenu des performances de classification de 75% pour les hommes, à partir de 5min de répétitions rapides de syllabes, et de 67% pour les femmes, à partir de 5min de monologue. Ces résultats constituent un premier pas important vers un télédiagnostic précoce de la maladie de Parkinson. Enfin nous avons aussi étudié les corrélations avec les données de neuroimagerie. Nous avons pu prédire linéairement, de manière significative, les données de DatScan et d'imagerie par résonance magnétique (IRM) sensible à la neuromélanine, à partir de paramètres vocaux. Ce résultat est prometteur au vu d'une possible utilisation future de la voix pour le suivi de l'évolution des premiers stades de MP.

  • Titre traduit

    Early detection of Parkinson's disease through voice analysis and correlations with neuroimaging


  • Résumé

    Vocal impairments, known as hypokinetic dysarthria, are one of the first symptoms to appear in Parkinson's Disease (PD). A large number of articles exist on PD detection through voice analysis, but few have focused on the early stages of the disease. Furthermore, to our knowledge, no study had been published on remote PD detection via speech transmitted through the telephone channel. The aim of this PhD work was to study vocal changes in PD at early and preclinical stages, and develop automatic detection and monitoring models. The long-term purpose is to build a cheap early diagnosis and monitoring tool, that doctors could use at their office, and even more interestingly, that could be used remotely with any telephone. The first step was to build a large voice database with more than 200 French speakers, including early PD patients, healthy controls and idiopathic Rapid eye movement sleep Behavior Disorder (iRBD) subjects, who can be considered at PD preclinical stage. All these subjects performed different vocal tasks and were recorded with a professional microphone and with the internal microphone of a computer. Moreover, they called once a month an interactive voice server, with their own phone. We studied the effect of microphone quality, speech tasks, gender, and classification analysis methodologies. We analyzed the vocal recordings with three different analysis methods, covering different time scale analyses. We started with cepstral coefficients and Gaussian Mixture Models (GMM). Then we adapted x-vectors methodology (which never had been used in PD detection) and finally we extracted global features classified with Support Vector Machine (SVM). We detected vocal impairments at PD early and preclinical stages in articulation, prosody, speech flow and rhythmic abilities. With the professional microphone recordings, we obtained an accuracy (Acc) of 89% for male early PD detection, just using 6min of reading, free speech, fast and slow syllable repetitions. As for women, we reached Acc = 70% with 1min of free speech. With the telephone recordings, we achieved Acc = 75% for men, with 5min of rapid syllable repetitions, and 67% for women, with 5min of free speech. These results are an important first step towards early PD telediagnosis. We also studied correlations with neuroimaging, and we were able to linearly predict DatScan and Magnetic Resonance Imaging (MRI) neuromelanin sensitive data, from a set of vocal features, in a significant way. This latter result is promising regarding the possible future use of voice for early PD monitoring.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Télécom SudParis et Institut Mines-Télécom Business School. Médiathèque.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.