Restitution sonore hiérarchique et perceptive d'environnements virtuels multi-modaux

par Emmanuel Gallo

Thèse de doctorat en Informatique

Sous la direction de George Drettakis.


  • Résumé

    Ce travail porte sur la simulation acoustique temps-réel pour des applications de réalité virtuelle ou les jeux vidéo. Ce type d’application nécessite des temps de calculs considérables, augmentant avec la complexité de la scène et impliquant des difficultés pour le rendu interactif. La simulation d’une scène sonore complexe reste encore difficile à réaliser en temps réel à cause du coût de la gestion indépendante des sources sonores. De plus, la description de la scène sonore nécessite de spécifier la nature et la position de chaque source sonore qui la compose, ce qui est une étape longue et fastidieuse. Dans ce cadre, nous avons étudié la possibilité d’effectuer la simulation acoustique en tirant parti de la puissance de calcul des cartes graphiques de dernière génération. Les résultats montrent que l’architecture hautement parallèle de ces cartes est appropriée pour ce type de calcul, augmentant grandement les performances par rapport aux processeurs actuels. Nous nous sommes intéressés par la suite à développer un algorithme exploitant l’audition humaine, permettant d’effectuer un rendu sonore de la scène en respectant un budget d’opérations par ordre de priorité jusqu’à atteindre le budget fixé. Une évaluation subjective a été effectuée pour comparer différentes métriques d’importance pour chaque signal à traiter sur des intervalles de temps très fins. Puis il effectue les opérations par ordre de priorité jusqu’à atteindre le budget fixé. Une évaluation subjective a été effectuée pour comparer différentes métriques d’importance. Enfin, nous avons élaboré une méthode alternative d’acquisition de scène sonore qui évite la modélisation individuelle de chaque source. A partir d’enregistrement monophoniques simultanés d’une scène réelle, cette méthode en détache les sources qui la composent. En étudiant les différences de temps d’arrivée des enregistrements sur plusieurs bandes de fréquence, une position est extraite pour la source sonore émettrice la plus présente dans chaque bande. Les composantes de chaque source peuvent ensuite être spatialisées aux positions trouvées. En utilisant ce principe, nous pouvons également rééditer la scène acquise ; Par exemple, nous pouvons déplacer ou supprimer une source, ou changer la position de l’auditeur en temps réel. Nous pouvons aussi combiner plusieurs éléments provenant de différents enregistrements tout en assurant une cohérence spatiale globale.

  • Titre traduit

    Perceptual sound rendering for multi-modal virtual environments


  • Résumé

    This thesis concentrates on real-time acoustic simulations for virtual reality applications or video games. Such applications require huge computing times, increasing with the complexity of the scene and involving difficulties for interactive rendering. In particular, the real-time simulation of a complex sound scene remains difficult due to the independent processing of each sound source. Moreover, the description of the auditory scene requires specifying the nature and the position of each sound source which is a long and tedious process. To solve these problems, we studied the possibility of performing the acoustic simulation by leveraging the computing power of latest generation graphics processors. The results show that their massively parallel architecture is well adapted to such processing increasing significantly the performances compared to current general purpose processors. We were interested thereafter in developing an algorithm exploiting the human perception in order to render an auditory scene by respecting a target budget of operations while minimizing audible artefacts. The proposed algorithm evaluates an importance metric for each signal on very fine time-intervals. Then, it performs the required signal processing operations by priority order until the target budget is reached. A subjective evaluation was made to assess different importance metrics. Finally, we developed an alternative method of sound acquisition which avoids the individual modelling of each source. From simultaneous monophonic recordings of a real scene, this method extracts the scene components. We analyze time-delay-of-arrival in the recorded signals in several frequency bands. From this information, a position is extracted for the most significant sound source in each band. The components from each source can the be re-rendered at the corresponding locations. Using this method, we can also edit the acquired scene. For instance, we can move or delete a sound source, or change the position of the listener in real-time. We can also composite several elements coming from different recordings ensuring a total spatial coherence.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (xx-138 p.)
  • Annexes : Bibliogr. p. 123-138. Résumés en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Université Nice Sophia Antipolis. Service commun de la documentation. Bibliothèque Sciences.
  • Non disponible pour le PEB
  • Cote : 07NICE4013
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.