Modèle génératifs sûres basés sur des représentation latente discrètes
Safe Audio Generation Models from Discrete Latent Representations
Jury
Directeur de these_SERIZEL_Romain_Loria, Université de Lorraine
Examinateur_LEGLAIVE_Simon_CentralSupélec
Examinateur_LIVESCU_Karen_Toyota Technological Institute at Chicago
CoDirecteur de these_DELEFORGE_Antoine_Centre Inria de l'Université de Lorraine de Strasbourg
Examinateur_BRUN_Armelle_Université de Lorraine
Rapporteur_GERKMANN_Timo_Université de Hambourg
Rapporteur_WANG_Wenwu_University of Surrey
école doctorale
IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES
Laboratoire
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Mention de diplôme
Informatique
A008
Centre Inria de l'Université de Lorraine, Bâtiment Ada Lovelace, 615 Rue du Jardin-Botanique, 54600 Villers-lès-Nancy
Mots clés
Apprentissage automatique,Génération audio,Traitement du signal,tatouage numérique,
Résumé de la thèse
Le développement rapide du deep learning a profondément transformé le traitement du signal audio, permettant aux modèles d'apprendre directement à partir du signal brut et d'atteindre des niveaux de réalisme inédits en synthèse vocale ou en génération musicale. Cette avancée s'accompagne toutefois de nouveaux risques : à mesure que les contenus générés deviennent indiscernables des enregistrements réels, des enjeux majeurs émergent autour de la désinformation, de l'usurpation d'identité et du respect du droit d'auteur.
Keywords
Machine learning,Audio Generation,Signal processing,Watermarking,
Abstract
The rapid development of deep learning has profoundly transformed audio signal processing, enabling models to learn directly from raw signals and achieve unprecedented levels of realism in speech synthesis and music generation. However, this progress brings new risks: as generated content becomes indistinguishable from real recordings, major issues arise around misinformation, identity theft, and copyright compliance.