Vers une reconnaissance non-supervisée de la parole: apprentissage de représentations informatives et invariantes.

par Neil Zeghidour

Projet de thèse en Sciences cognitives option Intelligence artificielle

Sous la direction de Emmanuel Dupoux et de Nicolas Usunier.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de École doctorale Cerveau, cognition, comportement (Paris) , en partenariat avec LABORATOIRE DE SCIENCES COGNITIVES ET PSYCHOLINGUISTIQUE (laboratoire) et de École normale supérieure (Paris ; 1985-....) (établissement de préparation de la thèse) depuis le 01-10-2015 .


  • Résumé

    La reconnaissance automatique de la parole désigne l'ensemble des problématiques liées à l'extraction et l'analyse automatiques de la parole humaine à partir du signal acoustique. Les systèmes actuels de reconnaissance automatique de la parole se fondent sur l'apprentissage supervisé, un mode d'apprentissage qui consiste à exploiter des données entièrement annotées pour apprendre des règles de classification des segments acoustiques en classes d'une certaine granularité (phonème, syllabe, mot, phrase). De tels systèmes affichent de nos jours une performance qui permet leur déploiement industriel, toutefois ces performances dépendent entièrement de la disponibilité de larges bases de données annotées. Non seulement de telles ressources ne sont disponibles que dans une minorité de langues, mais de plus leur utilisation élimine de fait toute analogie entre le système et les mécanismes d'acquisition du langage chez l'humain. En effet, le cerveau du bébé acquiert des capacités de reconnaissance comparables aux meilleurs systèmes automatiques en n'ayant à sa disposition qu'un signal d'une qualité moins uniforme, et sans la moindre annotation. Ainsi, réduire la dépendance de l'ASR à la supervision présente un double intérêt : — une généralisation des systèmes de reconnaissance à des langues moins documentées et une amélioration de la reconnaissance dans les autres langues rendues possibles par l'exploitation de bases de données non annotées; — une proximité plus grande avec les mécanismes d'acquisition du langage chez l'enfant, qui peut ensuite être testée expérimentalement sur les bébés. Dans une approche supervisée, l'emphase est souvent mise sur la sophistication du classificateur, celui-ci pouvant pallier d'éventuels défauts dans la représentation car guidé par les annotations. Cependant, en l'absence d'annotations, extraire l'information d'intérêt des données est une tâche plus difficile à aborder. Dans le cadre de ce projet, nous nous proposons de développer des systèmes profonds capables d'apprendre des représentations discriminatives pour différentes tâches (reconnaissance de la parole, identification du locuteur), et ce avec moins de supervision que dans le contexte standard. Un premier axe est l'exploitation efficace de l'information relative à l'identité du locuteur afin d'apprendre des représentations invariantes aux changements de locuteurs, et donc plus à même de caractériser le contenu linguistique. Un deuxième est l'exploration de divers niveau de supervision moins contraignants qu'une annotation totale (annotations à faible granularité, annotations incomplètes, distribution réaliste des locuteurs dans les données. Une dernière piste est enfin le développement de systèmes apprenant des représentations séparées pour chaque facteur de variation du signal (ex: contenu linguistique, identité du locuteur, bruit).

  • Titre traduit

    Towards unsupervised speech recognition: learning informative and invariant representations.


  • Résumé

    Automatic speech recognition (ASR) is the set of problems concerning the automatic extraction and analysis of speech from acoustic signal. Current ASR is based on supervised learning, which consists in exploiting fully annotated databases in order to learn classification rules that will allow recognition of segments of acoustic signal as belonging to a particular class (phone, syllable, word, phrase, sentence). Such systems reach performances that are satisfying enough to allow industrial applications, however these performances strongly rely on the availability of annotated speech datasets recorded in ideal conditions. Not only such resources are not available in many languages, but moreover a fully supervised learning is not suitable for any analogy with human brain. Indeed, the brain of babies acquires recognition abilities that are comparable with the best ASR systems, but with a signal of inferior quality, and without any supervision (in the sense of labeled data). Thus, reducing the dependency of ASR on supervision has two advantages. First, it would allow an extension of ASR systems to poorly documented languages, and an improvement of recognition performance on currently supported languages by enabling the exploitation of non-annotated datasets. Moreover it would yield an increase of the similarity between the computational model and the mechanisms of language acquisition in human infants, thus enabling the use of the system as a model of human language acquisition, which can subsequently be experimentally tested on babies, in normal or abnormal settings. In a supervised setting, the emphasis is often on sophisticating the supervised classifier, since a good classifier can compensate for flaws in its input representation, such as noisy and uninformative channels, by eliminating them. However, in an unsupervised setting, we lack the guidance of the labels to help a system learning to select features and extract the useful information from them. The main goal of this project is to design deep learning algorithms to extract representations of speech from the signal that allow proper unsupervised clustering. The first axis we explore is to force the system to learn speech representations that are as much as possible invariant to any variation but its phonetic content. The second one is to explore various ways of reducing supervision in deep speech recognition (semi-supervision, weak supervision, realistic distribution of speakers). Finally we aim to design algorithms that learn invariance by separating sources of variation (phoneme, speaker, channel, etc.) from the signal, such that no information is withdrawn while allowing clustering over each individual source.