From voice to virtuosity: DDSP-based timbre transfer
From voice to virtuosity: DDSP-based timbre transfer
Enllaç permanent
Descripció
Resum
Timbre is a crucial but elusive feature of music; it originates in the basic physical structure of sound waves but blossoms to touch upon a range of perceptual and social processes that are fundamental to how we derive meaning and emotion from music. This thesis explores timbre transfer with a new Differential Digital Signal Processing (DDSP)-based approach that leverages strong inductive biases without losing the expressive power of deep neural networks and end-to-end learning. By seamlessly integrating classic signal processing synthesizers as differentiable interpretable functions within a neural network, this method achieves high-fidelity generation without relying on large black-box autoregressive models or adversarial losses. This integration results in a domain-appropriate strong inductive bias, enabling a new interpretable representation and modular framework based on parametric signal processors for generative modeling. In this physically grounded approach, fundamental frequency and loudness envelopes are explicitly presented as domain-specific conditioning features to the model, which predicts the timbre via time-varying harmonic amplitudes and filtered noise, yielding an efficient end-to-end backpropagation and reducing model complexity and data requirements. This study presents state-of-the-art results through self-recorded trained models and demonstrates AuraVox, a virtual instrument implementation that enables real-time timbre transfer.
El timbre és una característica crucial però esquiva de la música; té el seu origen en l’estructura física de les ones sonores, però es desenvolupa per a abastar una varietat de processos perceptius i socials que són fonamentals per a entendre com la música transmet emoció i significat. Aquesta tesi explora la transferència de timbre amb un nou enfocament basat en Differential Digital Signal Processing (DDSP) que aprofita forts biaixos inductius sense perdre l’expressivitat de les xarxes neuronals i l’aprenentatge d’extrem a extrem. En integrar sintetitzadors clàssics de processament de senyals com a funcions diferenciables i interpretables dins d’una xarxa neuronal, aquest mètode aconsegueix una generació d’alta fidelitat sense dependre de grans models autoregressius de caixa negra o xarxes adversàries generatives. Aquesta integració resulta en un biaix inductiu adequat al domini, permetent una nova representació interpretable i marc modular, basat en processadors de senyal paramètrics, per al modelat generatiu. En aquest enfocament físicament fonamentat, freqüència fonamental i volum es previi senten explícitament com a caracteríıstiques de condicionament específiques del domini al model, el qual prediu el timbre a través d’amplituds harmòniques que varien en el temps i soroll filtrat, donant com a resultat una eficient retropropagació d’extrem a extrem i reduint la complexitat del model i requisits de dades. Aquest estudi presenta resultats d’ última generació a través de models entrenats amb gravacions pròpies i demostra AuraVox, un instrument virtual que permet la transferència de timbre en temps real.
El timbre es una característica crucial pero esquiva de la música; tiene su origen en la estructura física de las ondas sonoras, pero se desarrolla para abarcar una variedad de procesos perceptivos y sociales que son fundamentales para entender cómo la m´usica transmite emoción y significado. Esta tesis explora la transferencia de timbre con un nuevo enfoque basado en Differential Digital Signal Processing (DDSP) que aprovecha fuertes sesgos inductivos sin perder la expresividad de las redes neuronales y el aprendizaje de extremo a extremo. Al integrar sintetizadores clásicos de procesamiento de señales como funciones diferenciables e interpretables dentro de una red neuronal, este método logra una generación de alta fidelidad sin depender de grandes modelos autorregresivos de caja negra o redes adversarias generativas. Esta integración resulta en un sesgo inductivo adecuado al dominio, permitiendo una nueva representación interpretable y un marco modular, basado en procesadores de señal paramétricos, para el modelado generativo. En este enfoque físicamente fundamentado, frecuencia fundamental y volumen se presentan explícitamente como características de condicionamiento específicas del dominio al modelo, el cual predice el timbre a través de amplitudes arm´onicas que varían en el tiempo y ruido filtrado, dando como resultado una eficiente retropropagación de extremo a extremo y reduciendo la complejidad del modelo y requisitos de datos. Este estudio presenta resultados de última generación a través de modelos entrenados con grabaciones propias y demuestra AuraVox, un instrumento virtual que permite la transferencia de timbre en tiempo real.Descripció
Tutor: Lonce Wyse
Treball de fi de grau en Enyingeria de Sistemes Audiovisuals