Des données aux systèmes automatiques : étude des liens entre apprentissage & performances des systèmes de traitement automatique de la parole au travers de la répartition homme/femme

par Mahault Garnerin

Projet de thèse en Sciences du langage Spécialité Informatique et sciences du langage

Sous la direction de Claudine Moïse et de Laurent Besacier.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale langues, littératures et sciences humaines (Grenoble) , en partenariat avec Laboratoire de Linguistique et Didactique des Langues Etrangères et Maternelles (laboratoire) depuis le 01-10-2018 .


  • Résumé

    Les systèmes d'IA sont de plus en plus présents dans nos quotidiens pour réaliser un nombre croissant de tâches, de la rédaction de SMS et d'email, à la traduction, en passant par la gestion d'habitats connectés ou la conduite d'une voiture. Ces systèmes sont entraînés sur des gros corpus de données, que l'on nomme big data et qui sont devenus le nouveau pétrole du 21e siècle. Les systèmes réussissent à capturer des éléments que l'humain n'est pas capable de mémoriser, en extrayant des régularités de ces grandes quantités de données. Mais ces gros corpus de données soulèvent de nouvelles questions notamment éthiques : on oublie bien souvent que les données ne sont pas neutres et ont été produites et récoltées dans le cadre de sociétés et de cultures qui se retrouvent également encodées dans ces données. Nous nous proposons donc, dans cette optique, d'étudier les liens entre apprentissage et performances des systèmes de traitement automatique de la parole en se concentrant sur la répartition homme/femme. Le choix de la parole est motivé par la tendance actuelle faisant de la voix la nouvelle interface homme/machine. L'étude de la répartition homme/femme se justifie par l'accès relativement aisé à cette information, mais se positionne aussi dans une réflexion autour de la pertinence de la dichotomie vocale homme/femme face au constat de la grande disparité vocale existante à l'intérieure de ces catégories. Nous souhaitons donc proposer non pas des catégories, mais un continuum qui nous permettra de caractériser nos corpus non plus en terme de genre, mais en terme de diversité vocale. Cette représentation permettra de mettre en évidence la variabilité vocale et de remettre en question la pertinence du genre en tant que distinction catégorielle, tout en permettant une étude socio-phonétique des rôles des locuteurs et des interactions.

  • Titre traduit

    From data to automatic systems: study of the links between training data & performance of automatic speech processing systems through male/female distribution


  • Résumé

    AI systems are ever more present in our daily lives. There are now systems which help us texting, translating or even managing smart homes and driving autonomous cars. These systems are trained on large amount of data, and big data is now considered the « New Oil of the 21st century ». AI systems can recognize patterns and regularities in data that humans can't, due to their memory limits. But the use of big data also raises ethical questions : one often forgets that data is not raw nor neutral. It has been produced and collected within the frame of a society and a culture, both of which are encoded in the harvested data. We therefore propose to study the links between training data and performances of automatic speech recognition technology, with a focus on the gender distribution. We choose to study speech as it now the new interface for human-machine interaction. The study of the gender distribution is motivated by an easy access to gender information but it also initiates a sociolinguistic reflexion on the relevance of vocal gender. These reflexion takes its roots in the great disparity observed inside male and female vocal categories. We aim at creating a continuum instead of class in order to describe corpus no longer in terms of gender, but in terms of vocal diversity. This representation will allow us to highlight the vocal variability as well as questioning the pertinence of gender as a categorical distinction, alongside a sociophonetic study of speaker roles and interactions.