Analyzing singing voice expressivity: Focus on singing voice musical dynamics

Enllaç permanent

Descripció

  • Resum

    Musical dynamics, a key expressive dimension of the singing voice, play a vital role in shaping phrasing and conveying the desired emotional impact. Despite their importance, their formalization and standardization remain limited. This work addresses these challenges by proposing methodologies to analyze and interpret dynamics from both audio and score-performance perspectives. Our approach includes: (1) Comparative Musical Dynamics Analysis – examining variations between audio performances, (2) Interpreting Musical Dynamics from Scores – analyzing curated real-world audio performances paired with scores featuring rich dynamics labels, and (3) Analyzing Listener Agreement on Perceived Dynamics – investigating the subjectivity of interpretation. To support these approaches, we curate diverse datasets, including a synthetic dataset for choral singing, score-performance datasets from performer and listener perspectives, and karaoke datasets for imitation-based dynamics analysis. Our findings reveal that while synthetic data enables controlled comparisons, real-world performances exhibit musical dynamics absent in synthetic renditions. Using Romantic-era Lieder scores, we semi-automatically curated score-performance pairs through state-of-the-art source separation and alignment techniques to train a dynamics prediction model. Collaborating with expert musicians, we annotated scores with synchronized dynamics labels and examined inter-annotator agreement using computational linguistics methods. Additionally, we developed a system to identify vocal dynamics automatically, employing structural segmentation and machine learning models trained on the Western classical Lieder corpus. A preliminary study on Hindustani music revealed dynamics variations at strong beat positions. Our findings emphasize the value of personalized models and highlight the importance of context-window size in dynamics prediction tasks.
    Las dinámicas musicales, una dimensión expresiva clave de la voz cantada, desempeñan un papel fundamental en la configuración del fraseo y en la transmisión del impacto emocional deseado. A pesar de su importancia, su formalización y estandarización siguen siendo limitadas. Este trabajo aborda estos desafíos proponiendo metodologías para analizar e interpretar las dinámicas tanto desde perspectivas de audio como de interpretación de partituras. Nuestro enfoque incluye: (1) Análisis Comparativo de las Dinámicas Musicales – examinando las variaciones entre diferentes interpretaciones de audio, (2) Interpretación de las Dinámicas Musicales a partir de Partituras – analizando interpretaciones de audio emparejadas con partituras que incluyen etiquetas detalladas de dinámicas, y (3) Análisis del Acuerdo entre Oyentes sobre las Dinámicas Percibidas – investigando la subjetividad en la interpretación. Para respaldar estos enfoques, curamos diversos conjuntos de datos, incluyendo un conjunto sintético para canto coral, conjuntos de datos de interpretación de partituras desde las perspectivas del intérprete y del oyente, y conjuntos de datos de karaoke para el análisis de dinámicas basado en imitación. Nuestros hallazgos revelan que, si bien los datos sintéticos permiten comparaciones controladas, las interpretaciones reales presentan dinámicas musicales ausentes en las versiones sintéticas. Usando partituras de Lieder del período romántico, curamos pares de interpretación-partitura de manera semiautomática mediante técnicas avanzadas de separación y alineación de fuentes para entrenar un modelo de predicción de dinámicas. En colaboración con músicos expertos, anotamos partituras con etiquetas de dinámicas sincronizadas y analizamos el acuerdo entre anotadores utilizando métodos de lingüística computacional. Además, desarrollamos un sistema para identificar dinámicas vocales automáticamente, empleando segmentación estructural y modelos de aprendizaje automático entrenados con el corpus de Lieder de música clásica occidental. Un estudio preliminar sobre música hindustani reveló variaciones de dinámicas en posiciones de tiempos fuertes. Nuestros hallazgos enfatizan el valor de modelos personalizados y destacan la importancia del tamaño de la ventana de contexto en las tareas de predicción de dinámicas.
    Programa de Doctorat en Tecnologies de la Informació i les Comunicacions
  • Col·leccions

  • Mostra el registre complet