The identification of the melody from a music recording is a relatively easy task for humans, but very
challenging for computational systems. This task is known as "audio melody extraction", more
formally defined as the automatic estimation of the pitch sequence of the melody directly from the
audio signal of a polyphonic music recording. This thesis investigates the benefits of exploiting
knowledge automatically derived from data for audio melody extraction, by combining digital signal
processing ...
The identification of the melody from a music recording is a relatively easy task for humans, but very
challenging for computational systems. This task is known as "audio melody extraction", more
formally defined as the automatic estimation of the pitch sequence of the melody directly from the
audio signal of a polyphonic music recording. This thesis investigates the benefits of exploiting
knowledge automatically derived from data for audio melody extraction, by combining digital signal
processing and machine learning methods. We extend the scope of melody extraction research by
working with a varied dataset and multiple definitions of melody. We first present an overview of the
state of the art, and perform an evaluation focused on a novel symphonic music dataset. We then
propose melody extraction methods based on a source-filter model and pitch contour characterisation
and evaluate them on a wide range of music genres. Finally, we explore novel timbre, tonal and
spatial features for contour characterisation, and propose a method for estimating multiple melodic
lines. The combination of supervised and unsupervised approaches leads to advancements on
melody extraction and shows a promising path for future research and applications.
+
La identificación de la melodía en una grabación musical es una tarea relativamente fácil para seres
humanos, pero muy difícil para sistemas computacionales. Esta tarea se conoce como "extracción de
melodía", más formalmente definida como la estimación automática de la secuencia de alturas
correspondientes a la melodía de una grabación de música polifónica. Esta tesis investiga los
beneficios de utilizar conocimiento derivado automáticamente de datos para extracción de melodía,
combinando procesado ...
La identificación de la melodía en una grabación musical es una tarea relativamente fácil para seres
humanos, pero muy difícil para sistemas computacionales. Esta tarea se conoce como "extracción de
melodía", más formalmente definida como la estimación automática de la secuencia de alturas
correspondientes a la melodía de una grabación de música polifónica. Esta tesis investiga los
beneficios de utilizar conocimiento derivado automáticamente de datos para extracción de melodía,
combinando procesado digital de la señal y métodos de aprendizaje automático. Ampliamos el
alcance de la investigación en este campo, al trabajar con un conjunto de datos variado y múltiples
definiciones de melodía. En primer lugar presentamos un extenso análisis comparativo del estado de
la cuestión y realizamos una evaluación en un contexto de música sinfónica. A continuación,
proponemos métodos de extracción de melodía basados en modelos de fuente-filtro y la
caracterización de contornos tonales, y los evaluamos en varios géneros musicales. Finalmente,
investigamos la caracterización de contornos con información de timbre, tonalidad y posición
espacial, y proponemos un método para la estimación de múltiples líneas melódicas. La combinación
de enfoques supervisados y no supervisados lleva a mejoras en la extracción de melodía y muestra
un camino prometedor para futuras investigaciones y aplicaciones.
+
Programa de doctorat en Tecnologies de la Informació i les Comunicacions