Rehaussement de parole par acoustique dans des réseaux de microphones distribués

Offre de thèse

Date limite de candidature

31-05-2026

Date de début de contrat

01-10-2026

Directeur de thèse

SERIZEL Romain

Encadrement

Suivi régulier avec les encadrants.

Type de contrat

ANR Financement d'Agences de financement de la recherche

Candidater à cette offre

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

MULTISPEECH

contexte

Cette thèse s'inscrit dans le cadre du projet ANR-DFG AWESOME. Le projet rassemble des chercheurs de l'Université de Lorraine/LORIA à Nancy (France), de l'INRIA à Strasbourg (France) et du Département de physique médicale et d'acoustique de l'Université d'Oldenburg à Oldenburg (Allemagne). This PhD takes place within the ANR-DFG project AWESOME. The project involves researchers from Université de Lorraine/LORIA in Nancy (France), INRIA in Strasbourg (France) and Dept. of Medical Physics and Acoustics at the University of Oldenburg in Oldenburg (Germany).

spécialité

Informatique

laboratoire

LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Mots clés

Rehaussement de parole, IA, Apprentissage automatique, Traitement du signal

Détail de l'offre

Motivations

Dans de nombreuses applications de communication vocale, comme les systèmes de conférence ou les aides auditives, les microphones captent non seulement la parole de la personne souhaitée, mais aussi le bruit ambiant, les autres locuteurs concurrents et les réverbérations, c'est-à-dire les réflexions acoustiques des murs et autres objets. Pour améliorer la qualité et l'intelligibilité de la parole enregistrée, divers algorithmes d'amélioration de la parole, basés sur des modèles ou sur l'apprentissage profond, ont été proposés. Ceux-ci visent à supprimer le bruit et la réverbération indésirables sans déformer la parole de la personne souhaitée [1], [2]. En général, les algorithmes multi-microphones surpassent les algorithmes mono-microphone, car ils peuvent exploiter non seulement les informations spectro-temporelles, mais aussi l'information spatiale du champ sonore.
En considérant plusieurs dispositifs spatialement distribués, il est possible d'acquérir des informations plus détaillées sur le champ sonore, et d'augmenter la probabilité que certains microphones soient plus proches des sources sonores (désirables ou indésirables). Cependant, contrairement aux réseaux de microphones traditionnels, les réseaux de capteurs acoustiques peuvent être très dynamiques : le nombre et la position des dispositifs ne sont pas connus et peuvent même varier dans le temps. Pour soutenir l'amélioration de la parole multi-microphone, des méthodes d'estimation de paramètres acoustiques de l'environnement, tels que le temps de réverbération, la géométrie de la pièce ou les réflexions acoustiques, peuvent fournir des informations précieuses [3].

Objectifs
Lors de cette thèse, nous explorerons comment intégrer explicitement les paramètres de la scène acoustique dans la fonction de perte des algorithmes d'amélioration de la parole. Cette approche vise à améliorer les performances du modèle en fournissant des informations supplémentaires pendant l'apprentissage. Une méthode possible est l'apprentissage multi-tâches, où le modèle est entraîné à effectuer plusieurs tâches liées simultanément. Par exemple, le modèle peut être formé pour extraire la parole tout en estimant des paramètres acoustiques comme le temps de réverbération ou les positions des réseaux de microphones [4]. L'objectif est d'incorporer des connaissances acoustiques dans le modèle et d'améliorer sa robustesse face à différents environnements acoustiques.
Une alternative à l'apprentissage multi-tâches est l'apprentissage adversarial [5], où le modèle est délibérément entraîné sur des entrées modifiées de manière adversariale pour forcer des erreurs de prédiction. La motivation principale derrière ces approches est de permettre au modèle de dissocier la parole cible des autres paramètres de la scène. Ainsi, le modèle devient plus robuste face aux changements de conditions acoustiques, comme les variations de position des réseaux de microphones.

Keywords

Speech enhancement, AI, Machine Learning, Signal Processing

Subject details

Motivations In many speech communication applications, such as conferencing systems and hearing aids, the microphones capture not only the desired talker but also ambient noise, competing talkers and reverberation, i.e. acoustic reflections from walls and other objects. To improve the quality and intelligibility of recorded speech, various model-based and deep-learning-based speech enhancement algorithms have been proposed, aiming to suppress undesired noise and reverberation without distorting the desired talker [1], [2]. In general, multi-microphone algorithms outperform single-microphone algorithms as they can exploit the spatial information of the sound field in addition to spectro-temporal information. By considering multiple spatially distributed devices, more detailed information about the sound field can be acquired and the likelihood that some microphones are closer to the (desired and undesired) sound sources is increased. Nevertheless, unlike traditional microphone arrays, acoustic sensor networks can be highly dynamic in the sense that the number and position of the devices is not known and may even vary over time. To support multi-microphone speech enhancement, methods to estimate acoustic parameters of the environment such as reverberation time, room geometry and acoustic reflections can provide valuable information [3]. Goals and Objectives During this PhD we will explore how acoustic scene parameters can be integrated explicitly into the loss function of the speech enhancement algorithms. This approach aims to improve the model's performance by providing additional guidance during the training process. One method is multi-task training, where the model is trained to perform multiple related tasks simultaneously. For example, the model can be trained to extract speech while also estimating acoustic parameters such as reverberation time or the positions of the microphone arrays [4]. The motivation here is to incorporate acoustic knowledge within the model and improve its robustness to different acoustic environments. An alternative to multi-task learning is adversarial training [5], where the model is deliberately trained using adversarially altered inputs to force prediction errors. The primary motivation behind these approaches is to enable the model to disentangle the target speech from other scene parameters. By doing so, the model becomes more robust to changes in acoustic conditions such as changes in the positions of the microphone arrays.

Profil du candidat

Excellente maîtrise de la programmation en Python. La connaissance de PyTorch est un atout.
Formation en apprentissage profond et traitement du signal. Des connaissances ou un intérêt pour l'audio, l'acoustique, les méthodes numériques ou l'optimisation sont des atouts supplémentaires.
Niveau master 2 (en informatique, traitement du signal, apprentissage machine, acoustique ou mathématiques appliquées) avec un fort intérêt pour la recherche académique.

Candidate profile

• Excellent level in Python programming. PyTorch knowledge is an added value.
• Training in Deep Learning and Signal Processing. Additional knowledge or interest for audio, acoustics, numerical methods or optimization are an added value.
• 2nd year master level (in computer science, signal processing, machine learning, acoustics or applied mathematics) with a strong interest for academic research

Référence biblio

[1] S. Doclo, W. Kellermann, S. Makino, and S. E. Nordholm, ‘Multichannel Signal Enhancement Algorithms for Assisted Listening Devices: Exploiting spatial diversity using multiple microphones', IEEE Signal Processing Magazine, vol. 32, no. 2, pp. 18–30, Mar. 2015.
[2]&#8203; R. Haeb-Umbach, T. Nakatani, M. Delcroix, C. Boeddeker, and T. Ochiai, ‘Microphone Array Signal Processing and Deep Learning for Speech Enhancement: Combining model-based and data-driven approaches to parameter estimation and filtering', IEEE Signal Processing Magazine, vol. 41, no. 6, pp. 12–23, Nov. 2024.
[3]&#8203; D. De Carlo, P. Tandeitnik, C. Foy, N. Bertin, A. Deleforge, and S. Gannot, ‘dEchorate: a calibrated room impulse response dataset for echo-aware signal processing', EURASIP Journal on Audio, Speech, and Music Processing, vol. 2021, no. 1, p. 39, Nov. 2021.
[4]&#8203; R. Giri, M. L. Seltzer, J. Droppo, and D. Yu, ‘Improving speech recognition in reverberation using a room-aware deep neural network and multi-task learning', in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Apr. 2015, pp. 5014–5018.
[5]&#8203; G. Lample, N. Zeghidour, N. Usunier, A. Bordes, L. DENOYER, and M. A. Ranzato, ‘Fader Networks: Manipulating Images by Sliding Attributes', in Advances in Neural Information Processing Systems, 2017.