Méthodes d'apprentissage pour la segmentation et la reconstruction du conduit vocal en IRM dynamique

Offre de thèse

Méthodes d'apprentissage pour la segmentation et la reconstruction du conduit vocal en IRM dynamique

Date limite de candidature

15-06-2026

Date de début de contrat

01-10-2026

Directeur de thèse

VUISSOZ Pierre-André

Encadrement

Le doctorant sera intégré au laboratoire IADI (Inserm U1254, Université de Lorraine) dans le cadre du projet ANR ARTANY. L'encadrement scientifique sera assuré par Pierre-André Vuissoz (HDR), avec un co-encadrement méthodologique assuré par Karyna Isaieva. Le suivi reposera sur des réunions régulières avec les encadrants, la participation aux réunions scientifiques hebdomadaires du laboratoire ainsi qu'une évaluation continue des jalons scientifiques du projet. Le doctorant bénéficiera d'un accès aux ressources expérimentales et de calcul du laboratoire, aux bases de données IRM et aux plateformes IRM de recherche du CHRU de Nancy. Il sera encouragé à participer à des conférences, formations doctorales et publications scientifiques dans les domaines du traitement d'image médicale, de l'apprentissage profond et de l'IRM de la parole.

Type de contrat

Enseignement supérieur

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

contexte

L'IRM temps réel permet aujourd'hui d'observer la dynamique des articulateurs du conduit vocal sans instrumentation invasive. Les corpus récents associent séquences IRM 2D rapides, volumes IRM 3D statiques, audio synchronisé et annotations phonétiques. Ces données ouvrent des perspectives importantes pour la modélisation articulatoire de la parole. Cependant, plusieurs verrous persistent. Les segmentations automatiques restent insuffisamment robustes et nécessitent encore de nombreuses corrections manuelles. Les approches image par image produisent des incohérences temporelles qui dégradent les modèles articulatoires et acoustiques. Par ailleurs, les acquisitions dynamiques restent principalement limitées à des représentations 2D, ce qui limite l'accès à une géométrie tridimensionnelle réaliste du conduit vocal. Le projet ANR ARTANY vise précisément à lever ces verrous en développant des représentations articulatoires fiables, comparables entre locuteurs et langues, à partir de données multimodales riches et hétérogènes. Dans ce cadre, la contribution du laboratoire IADI porte sur les méthodes d'acquisition IRM et de traitement des images du conduit vocal.

spécialité

Automatique, Traitement du signal et des images, Génie informatique

laboratoire

IADI - Imagerie Adaptative Diagnostique et Interventionnelle

Mots clés

IRM temps réel , conduit vocal, segmentation, apprentissage semi-/auto-supervisé , multimodalité audio–image–phonétique, inférence 2D vers 3D

Détail de l'offre

L'IRM dynamique de la parole permet la construction de modèles articulatoires du conduit vocal. Toutefois, un traitement de ces données est nécessaire afin de les rendre pleinement exploitables. Ce traitement comprend tout d'abord la segmentation des articulateurs du conduit vocal. La reconstruction de volumes 3D dynamiques, n'étant pas largement disponible, pourrait améliorer significativement la précision des modélisations acoustiques. Cependant, les méthodes développées à ce jour ne permettent pas encore d'atteindre une précision suffisante pour une synthèse articulatoire fiable.

Cette thèse vise à développer un ensemble de méthodes permettant d'exploiter conjointement toutes les modalités disponibles : IRM dynamique 2D, IRM statique 3D, enregistrements audio synchronisés et débruités, ainsi que les annotations phonétiques, afin de fournir des données d'entrée de la meilleure qualité possible pour la construction de modèles articulatoires.

Dans un premier temps, le ou la doctorant(e) développera un pipeline de segmentation faiblement supervisé permettant d'extraire les contours des articulateurs du conduit vocal pour différentes anatomies et différentes langues. Dans un second temps, l'algorithme de segmentation sera amélioré afin de prendre en compte la cohérence temporelle entre les contours prédits. Enfin, la thèse portera sur le développement d'un algorithme de reconstruction de volumes 3D dynamiques.

Cette thèse s'inscrit dans le cadre du projet ANR ARTANY, dont l'objectif est de décrire les phénomènes de coarticulation ainsi que les variations liées à la morphologie propre à chaque individu.

Keywords

real-time MRI , vocal tract , segmentation, semi-/self-supervised learning , audio–image–phonetic multimodality , 2D-to-3D inference

Subject details

Dynamic speech MRI enables the construction of articulatory models of the vocal tract. However, processing of these data is required before they can be fully exploited. A first essential step is the segmentation of vocal tract articulators. In addition, the reconstruction of dynamic 3D volumes, which has so far remained scarcely available, could significantly improve the accuracy of acoustic modeling. Nevertheless, current methods still do not provide sufficient precision for reliable articulatory speech synthesis. This PhD project aims to develop a set of methods capable of jointly exploiting all available modalities: 2D dynamic MRI, 3D static MRI, synchronized and denoised audio recordings, as well as phonetic annotations, in order to provide the highest-quality input data possible for the construction of articulatory models. First, the PhD candidate will develop a weakly supervised segmentation pipeline to extract vocal tract articulator contours across different anatomies and languages. In a second step, the segmentation algorithm will be improved to account for temporal consistency between predicted contours. Finally, the thesis will focus on the development of an algorithm for dynamic 3D volume reconstruction. This PhD project is part of the ANR ARTANY project, whose objective is to describe coarticulation phenomena as well as variations related to individual vocal tract morphology.

Profil du candidat

Le sujet convient à un ou une candidate ayant une solide compétence en programmation scientifique, apprentissage profond, traitement d'images médicales et expérimentation reproductible. Une expérience en vision par ordinateur, segmentation d'images médicales ou apprentissage multimodal sera appréciée.

Candidate profile

The project is intended for candidates with strong skills in scientific programming, deep learning, medical image processing and reproducible research. Experience in computer vision, medical image segmentation or multimodal learning will be appreciated.

Référence biblio

[1] Y. Lim, A. Toutios, Y. Bliesener, Y. Tian, S. G. Lingala, C. Vaz, T. Sorensen, M. Oh, S. Harper, W. Chen, Y. Lee, J. Töger, M. L. Monteserin, C. Smith, B. Godinez, L. Goldstein, D. Byrd, K. S. Nayak, and S. S. Narayanan, “A multispeaker dataset of raw and reconstructed speech production real-time MRI video and 3D volumetric images,” Sci. Data, vol. 8, no. 1, p. 187, July 2021.
[2] K. Isaieva, Y. Laprie, J. Leclère, I. K. Douros, J. Felblinger, and P.-A. Vuissoz, “Multimodal dataset of real-time 2D and static 3D MRI of healthy French speakers,” Sci. Data, vol. 8, no. 1, p. 258, Dec. 2021.
[3] V. Ribeiro, K. Isaieva, J. Leclere, J. Felblinger, P.-A. Vuissoz, and Y. Laprie, “Automatic segmentation of vocal tract articulators in real-time magnetic resonance imaging,” Comput. Methods Programs Biomed., vol. 243, p. 107907, Jan. 2024.
[4] M. Ruthven, M. E. Miquel, and A. P. King, “Deep-learning-based segmentation of the vocal tract and articulators in real-time magnetic resonance images of speech,” Comput. Methods Programs Biomed., vol. 198, p. 105814, Jan. 2021.
[5] V. Ribeiro, K. Isaieva, J. Leclere, P.-A. Vuissoz, and Y. Laprie, “Automatic generation of the complete vocal tract shape from the sequence of phonemes to be articulated,” Speech Commun., vol. 141, pp. 1–13, June 2022.
[6] H. Nguyen, S. Foley, K. Huang, X. Shi, T. Feng, and S. Narayanan, “Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech.” arXiv, 23-Sept-2024.
[7] M. Fu, M. S. Barlaz, J. L. Holtrop, J. L. Perry, D. P. Kuehn, R. K. Shosted, Z.-P. Liang, and B. P. Sutton, “High-frame-rate full-vocal-tract 3D dynamic speech imaging: 3D Dynamic Speech Imaging,” Magn. Reson. Med., vol. 77, no. 4, pp. 1619–1629, Apr. 2017.
[8] R. Jin, R. K. Shosted, F. Xing, I. R. Gilbert, J. L. Perry, J. Woo, Z. Liang, and B. P. Sutton, “Enhancing linguistic research through 2‐mm isotropic 3D dynamic speech MRI optimized by sparse temporal sampling and low‐rank reconstruction,” Magn. Reson. Med., vol. 89, no. 2, pp. 652–664, Feb. 2023.
[9] Y. Zhu, “Dynamic 3D Visualization of Vocal Tract Shaping During Speech,” IEEE Trans. MEDICALIMAGING, vol. 32, no. 5, pp. 838–848, May 2013.
[10] R. Z. Rusho, Q. Zou, W. Alam, S. Erattakulangara, M. Jacob, and S. G. Lingala, “Accelerated Pseudo 3D Dynamic Speech MR Imaging at 3T Using Unsupervised Deep Variational Manifold Learning,” in Medical Image Computing and Computer Assisted Intervention – MICCAI 2022, vol. 13436, L. Wang, Q. Dou, P. T. Fletcher, S. Speidel, and S. Li, Eds. Cham: Springer Nature Switzerland, 2022, pp. 697–706.
[11] K. Isaieva, F. Odille, Y. Laprie, G. Drouot, J. Felblinger, and P.-A. Vuissoz, “Super-Resolved Dynamic 3D Reconstruction of the Vocal Tract during Natural Speech,” J. Imaging, vol. 9, no. 10, p. 233, Oct. 2023.
[12] M. Belyk, C. Carignan, and C. McGettigan, “An open-source toolbox for measuring vocal tract shape from real-time magnetic resonance images,” Behav. Res. Methods, July 2023.
[13] X. Zeng, N. Abdullah, and P. Sumari, “Self-supervised learning framework application for medical image analysis: a review and summary,” Biomed. Eng. OnLine, vol. 23, no. 1, p. 107, Oct. 2024.
[14] X. Luo, G. Wang, W. Liao, J. Chen, T. Song, Y. Chen, S. Zhang, D. N. Metaxas, and S. Zhang, “Semi-supervised medical image segmentation via uncertainty rectified pyramid consistency,” Med. Image Anal., vol. 80, p. 102517, Aug. 2022.
[15] M. Ruthven, M. E. Miquel, and A. P. King, “A segmentation-informed deep learning framework to register dynamic two-dimensional magnetic resonance images of the vocal tract during speech,” Biomed. Signal Process. Control, vol. 80, p. 104290, Feb. 2023.
[16] F. Isensee, P. F. Jaeger, S. A. A. Kohl, J. Petersen, and K. H. Maier-Hein, “nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation,” Nat. Methods, vol. 18, no. 2, pp. 203–211, Feb. 2021.
[17] M. Strauch and A. Serrurier, “Generating high-resolution 3D real-time MRI of the vocal tract,” in INTERSPEECH 2023, 2023, pp. 5142–5146.
[18] Y. Lim, Y. Zhu, S. G. Lingala, D. Byrd, S. Narayanan, and K. S. Nayak, “3D dynamic MRI of the vocal tract during natural speech,” Magn. Reson. Med., vol. 81, no. 3, pp. 1511–1520, Mar. 2019.
[19] S. Erattakulangara, K. Kelat, K. Burnham, R. Balbi, S. E. Gerard, D. Meyer, and S. G. Lingala, “Open-Source Manually Annotated Vocal Tract Database for Automatic Segmentation from 3D MRI Using Deep Learning: Benchmarking 2D and 3D Convolutional and Transformer Networks,” J. Voice, p. S089219972500075X, Mar. 2025.