L'Art de la Voix : Caractériser l'information vocale dans un choix artistique

par Adrien Gresse

Thèse de doctorat en Informatique

Sous la direction de Jean-François Bonastre.

Soutenue le 06-02-2020

à Avignon , dans le cadre de École doctorale 536 « Sciences et agrosciences » (Avignon) , en partenariat avec Laboratoire informatique d'Avignon (laboratoire) .


  • Résumé

    Pour atteindre une audience internationale, les productions audiovisuelles (films, séries, jeux vidéo) doivent être traduites dans d'autres langues. Très souvent les voix de la langue d'origine de l'œuvre sont doublées par de nouvelles voix dans la langue cible. Le processus de casting vocal visant à choisir une voix (un acteur) en accord avec la voix originale et le personnage joué est réalisé manuellement par un directeur artistique (DA). Aujourd'hui, les DAs ont une inclination pour les nouveaux talents (moins coûteux et plus disponibles que les doubleurs expérimentés), mais ils ne peuvent pas réaliser une audition à grande échelle. Doter les industriels de l'audiovisuel d'outils automatiques capables de mesurer l'adéquation entre une voix dans une langue source avec un contexte donné et une voix dans une langue/culture cible est donc d'un fort intérêt. De plus, au-delà du casting vocal, cette problématique du choix d'une voix fait écho aux grands enjeux scientifiques de la compréhension des mécanismes de perception de la voix.Dans ce travail de thèse, nous utilisons des voix d'acteurs professionnels sélectionnées par un DA dans différentes langues pour des œuvres déjà doublées. Dans un premier temps, nous construisons un protocole fondé sur une méthode état-de-l'art en reconnaissance du locuteur pour mettre en évidence l'existence d'une information caractéristique du personnage dans nos données. Nous identifions également l'influence du biais linguistique sur les performances du système. Nous mettons en place, dans un second temps, un cadre méthodologique pour évaluer la capacité d'un système automatique à discriminer les paires de voix doublant un même personnage. Le système que nous avons créé repose sur des réseaux de neurones siamois. Dans ce cadre d'évaluation nous exerçons un contrôle fort des biais (contenu linguistique, genre, etc.) et nous apprenons une mesure de similarité permettant de prédire les choix du DA avec un écart significatif par rapport au hasard. Enfin, nous entraînons un espace de représentation mettant en avant l'information caractéristique du personnage, appelé p-vecteur. Nous montrons, grâce à notre cadre méthodologique que cette représentation permet de mieux discriminer les voix de nouveaux personnages, par comparaison à une représentation orientée sur l'information locuteur. De plus, nous montrons qu'il est possible de bénéficier de la connaissance généralisée d'un modèle appris sur un jeu de données proche en utilisant les techniques de distillation de la connaissance dans les réseaux de neurones.Cette thèse apporte un début de réponse pour la construction d'un outil d'aide au casting vocal capable de réaliser une présélection des voix pertinentes parmi un grand ensemble de voix disponibles dans une langue. Si nous avons montré dans cette thèse qu'il est possible d'extraire, à partir d'un grand volume de données, une information caractéristique d'un choix artistique souvent difficile à formaliser, il nous reste encore à mettre en évidence les facteurs explicatifs de cette décision. Nous souhaitons pouvoir fournir en complément de la sélection de voix réalisée une description des raisons de ce choix. Par ailleurs, la compréhension du processus de décision du système nous aiderait à définir la "palette vocale". À la suite de ces travaux, nous aimerions explorer l'influence de la langue et de la culture ciblée en étendant nos travaux à plus de langues. À plus long termes, ce travail pourrait aider à comprendre comment la perception des voix à évoluer depuis les débuts du doublage.

  • Titre traduit

    The Art of Voice : Characterization of vocal information in an artistic choice


  • Résumé

    To reach an international audience, audiovisual productions (films, TVshows, video games) must be translated into other languages. Generally, theoriginal voice is replaced by a new voice in the target language. This processis referred as dubbing. The voice casting process aimed at choosing avoice (an actor) in accordance with the original voice and the character, isperformed manually by an artistic director (AD). Today, ADs are looking fornew "talents" (less expensive and more available than experienced dubbers),but they cannot perform large-scale auditions. Automatic tools capable ofmeasuring the adequacy between a voice in a source language with a voicein a target language/culture and a given context is of great interest for audiovisualcompanies. In addition, beyond voice casting, this voice selectionproblematic echoes the major scientific questions of voice similarity andperception mechanism.In this work, we use the voices of professional actors selected by ADs indifferent languages from already dubbed works. First, we set up a protocolwith state-of-the-art methods in automatic speaker recognition to highlightthe existence of character/role specific information in our data. Wealso identify the influence of linguistic bias on the performance of the system.Then, we build methodological framework to evaluate the ability ofan automatic system to discriminate pairs of voices playing the same character.The system we created is based on Siamese Neural Networks. In thisevaluation protocol, we apply strong constraints to avoid possible biases(linguistic content, gender, etc.) and we learn a similarity measure that reflectsthe AD’s choices with a significant difference that is not attributed tochance. Finally, we train a new representational space highlighting the characterspecific information, called p-vector. Thanks to our methodologicalframework, we show that this representation allows to better discriminatethe voices of new characters, in comparison to a representation oriented onthe speaker information. In addition, we show that it is possible to benefitfrom the generalized knowledge of a model learned on a similar dataset using knowledge distillation in neural networks.This thesis gives a initial answer for assisted voice casting and providesautomatic tools capable of preselecting the relevant voices from a large setof voices in a target language. Despite the fact that the information characteristicof an artistic choice can be extracted from a large volume of data,even if this choice is difficult to formalize, we still have to highlight the explanatoryfactors of the decision of the system.We would like to explain, inaddition to the selection of voices, the reasons of this choice. Furthermore,understanding the decision process of the system would help us define the"voice palette". In future work, we would like to explore the influence of thetarget language and culture by extending our work to more languages. Inthe longer term, this work could help to understand how voice perceptionhas evolved since the beginning of dubbing.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.