Thèse de doctorat en Informatique
Sous la direction de Emmanuel Vincent et de Romain Serizel.
Soutenue le 31-05-2021
à l'Université de Lorraine , dans le cadre de École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine , en partenariat avec Laboratoire lorrain de recherche en informatique et ses applications (laboratoire) .
Le président du jury était Hervé Glotin.
Le jury était composé de Emmanuel Vincent, Romain Serizel, Geoffroy Peeters, Christophe Cerisara, Annamaria Mesaros.
Les rapporteurs étaient Hervé Glotin, Geoffroy Peeters.
mots clésNotre vie est constamment bercée par les sons ambiants. De l’eau qui coule dans notre douche aux bruits de notre clavier, les sons ambiants sont partout. Les humains sans pertes auditives reconnaissent inconsciemment les sons qui les entourent et prennent de nombreuses décisions en tenant compte des sons ambiants (réactions à des pleurs de bébé par exemple). L’analyse des sons ambiants de manière automatique est un problème difficile à résoudre en raison de la complexité des scènes sonores et de leur manque de structure apparente. Afin de reconnaître les événements sonores de façon automatique, on a généralement recours à des méthodes qui reposent sur l’utilisation de jeux de données contenant les événements que l’on souhaite reconnaître avec leur annotation. Cependant annoter ces données coûte cher. Dans cette thèse nous analysons les problèmes qui surviennent lors de l’analyse des sons ambiants en environnement domestique réel et les solutions qui permettent de réduire l’effort d’annotation.
Analysis of scientific challenges in ambient sound recognition in real environments
We are constantly surrounded by ambient sounds. From the water running in the shower to the sound of a keyboard, ambient sounds are everywhere. Humans unconsciously recognize ambient sounds them and take multiple decisions using the information provided by them in their everyday life (reaction to a baby crying for example). However, automatic ambient sound analysis is a difficult problem because of the complexity of the sound scenes and their lack of apparent structure. To recognize sound events automatically, we usually rely on methods requiring a dataset containing the sound events to be recognized and their labels. However, annotating such a dataset is expensive. In this thesis we study the problems appearing when analyzing ambient sounds in a real domestic environment and we study solutions to reduce the labeling effort.
Il est disponible au sein de la bibliothèque de l'établissement de soutenance.