Thèse soutenue

L'Art de la Voix : Caractériser l'information vocale dans un choix artistique

FR  |  
EN
Auteur / Autrice : Adrien Gresse
Direction : Jean-François Bonastre
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/02/2020
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : École doctorale 536 « Sciences et agrosciences » (Avignon)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique d'Avignon
Jury : Examinateurs / Examinatrices : Emmanuel Vincent, Jean-Julien Aucouturier, Lori Lamel, Yannick Estève, Julie Mauclair
Rapporteurs / Rapporteuses : Emmanuel Vincent, Jean-Julien Aucouturier

Résumé

FR  |  
EN

Pour atteindre une audience internationale, les productions audiovisuelles (films, séries, jeux vidéo) doivent être traduites dans d'autres langues. Très souvent les voix de la langue d'origine de l'œuvre sont doublées par de nouvelles voix dans la langue cible. Le processus de casting vocal visant à choisir une voix (un acteur) en accord avec la voix originale et le personnage joué est réalisé manuellement par un directeur artistique (DA). Aujourd'hui, les DAs ont une inclination pour les nouveaux talents (moins coûteux et plus disponibles que les doubleurs expérimentés), mais ils ne peuvent pas réaliser une audition à grande échelle. Doter les industriels de l'audiovisuel d'outils automatiques capables de mesurer l'adéquation entre une voix dans une langue source avec un contexte donné et une voix dans une langue/culture cible est donc d'un fort intérêt. De plus, au-delà du casting vocal, cette problématique du choix d'une voix fait écho aux grands enjeux scientifiques de la compréhension des mécanismes de perception de la voix.Dans ce travail de thèse, nous utilisons des voix d'acteurs professionnels sélectionnées par un DA dans différentes langues pour des œuvres déjà doublées. Dans un premier temps, nous construisons un protocole fondé sur une méthode état-de-l'art en reconnaissance du locuteur pour mettre en évidence l'existence d'une information caractéristique du personnage dans nos données. Nous identifions également l'influence du biais linguistique sur les performances du système. Nous mettons en place, dans un second temps, un cadre méthodologique pour évaluer la capacité d'un système automatique à discriminer les paires de voix doublant un même personnage. Le système que nous avons créé repose sur des réseaux de neurones siamois. Dans ce cadre d'évaluation nous exerçons un contrôle fort des biais (contenu linguistique, genre, etc.) et nous apprenons une mesure de similarité permettant de prédire les choix du DA avec un écart significatif par rapport au hasard. Enfin, nous entraînons un espace de représentation mettant en avant l'information caractéristique du personnage, appelé p-vecteur. Nous montrons, grâce à notre cadre méthodologique que cette représentation permet de mieux discriminer les voix de nouveaux personnages, par comparaison à une représentation orientée sur l'information locuteur. De plus, nous montrons qu'il est possible de bénéficier de la connaissance généralisée d'un modèle appris sur un jeu de données proche en utilisant les techniques de distillation de la connaissance dans les réseaux de neurones.Cette thèse apporte un début de réponse pour la construction d'un outil d'aide au casting vocal capable de réaliser une présélection des voix pertinentes parmi un grand ensemble de voix disponibles dans une langue. Si nous avons montré dans cette thèse qu'il est possible d'extraire, à partir d'un grand volume de données, une information caractéristique d'un choix artistique souvent difficile à formaliser, il nous reste encore à mettre en évidence les facteurs explicatifs de cette décision. Nous souhaitons pouvoir fournir en complément de la sélection de voix réalisée une description des raisons de ce choix. Par ailleurs, la compréhension du processus de décision du système nous aiderait à définir la "palette vocale". À la suite de ces travaux, nous aimerions explorer l'influence de la langue et de la culture ciblée en étendant nos travaux à plus de langues. À plus long termes, ce travail pourrait aider à comprendre comment la perception des voix à évoluer depuis les débuts du doublage.