Ensemble singing is a well-established practice across cultures, found in a great diversity of
forms, languages, and levels. However, it has not been widely studied in the field of Music
Information Retrieval (MIR), likely due to the lack of appropriate data. In this dissertation, we
first address the data scarcity by building new open, multi-track datasets of ensemble
singing. Then, we address three main research problems: multiple F0 estimation and
streaming, voice assignment, and the characterization ...
Ensemble singing is a well-established practice across cultures, found in a great diversity of
forms, languages, and levels. However, it has not been widely studied in the field of Music
Information Retrieval (MIR), likely due to the lack of appropriate data. In this dissertation, we
first address the data scarcity by building new open, multi-track datasets of ensemble
singing. Then, we address three main research problems: multiple F0 estimation and
streaming, voice assignment, and the characterization of vocal unisons, all in the context of
four-part vocal ensembles. Hence, the first contribution of this thesis is the development and
release of four multi-track datasets of vocal ensembles: Choral Singing Dataset, Dagstuhl
ChoirSet, ESMUC Choir Dataset, and Cantoría Dataset, all of them with audio recordings
and accompanying annotations. The second contribution is a set of deep learning models for
multiple F0 estimation, streaming, and voice assignment of vocal quartets, mainly based on
convolutional neural networks designed leveraging music domain knowledge. Finally, we
propose two methods to characterize vocal unison performances in terms of pitch
dispersion.
+
Cantar en un conjunt vocal és una activitat arrelada a moltes cultures i que es desenvolupa
en diversos formats, idiomes i nivells. Tanmateix, la falta de les dades adequades ha fet que
no s’hagi estudiat extensivament en el camp de la Recuperació de la Informació Musical
(MIR). En aquesta tesi, primer abordem l’escassetat de dades creant noves bases de dades
obertes amb gravacions multi-pista de conjunts vocals. Tot seguit, ens centrem
principalment en tres tasques d'investigació: estimació i seguiment ...
Cantar en un conjunt vocal és una activitat arrelada a moltes cultures i que es desenvolupa
en diversos formats, idiomes i nivells. Tanmateix, la falta de les dades adequades ha fet que
no s’hagi estudiat extensivament en el camp de la Recuperació de la Informació Musical
(MIR). En aquesta tesi, primer abordem l’escassetat de dades creant noves bases de dades
obertes amb gravacions multi-pista de conjunts vocals. Tot seguit, ens centrem
principalment en tres tasques d'investigació: estimació i seguiment de múltiples valors de
F0, assignació de veus i modelat d’unísons, totes en el context de grups vocals a quatre
veus. Per tant, la primera aportació d’aquesta tesi és la publicació de quatre bases de dades
amb enregistraments de conjunts vocals: Choral Singing Dataset, Dagstuhl ChoirSet,
ESMUC Choir Dataset i Cantoría Dataset, totes amb enregistraments d’àudio multi-pista i
anotacions. La segona aportació d’aquesta tesi és un conjunt de models d’aprenentatge
profund per l’estimació i el seguiment de múltiples valors de F0 i per l’assignació de veus en
quartets vocals, principalment basats en xarxes neuronals convolucionals dissenyades per
incorporar coneixement musical. Finalment, proposem dos mètodes per modelar i
caracteritzar unísons vocals en termes de dispersió d’altura tonal (pitch).
+