This dissertation aims at developing audio-based musical version identification (VI) systems
for industry-scale corpora. To employ such systems in industrial use cases, they must
demonstrate high performance on large-scale corpora while not favoring certain musicians
or tracks above others. Therefore, the three main aspects we address in this dissertation are
accuracy, scalability, and algorithmic bias of VI systems.
We propose a data-driven model that incorporates domain knowledge in its network
architecture ...
This dissertation aims at developing audio-based musical version identification (VI) systems
for industry-scale corpora. To employ such systems in industrial use cases, they must
demonstrate high performance on large-scale corpora while not favoring certain musicians
or tracks above others. Therefore, the three main aspects we address in this dissertation are
accuracy, scalability, and algorithmic bias of VI systems.
We propose a data-driven model that incorporates domain knowledge in its network
architecture and training strategy. We then take two main directions to further improve our
model. Firstly, we experiment with data-driven fusion methods to combine information from
models that process harmonic and melodic information, which greatly enhances
identification accuracy. Secondly, we investigate embedding distillation techniques to reduce
the size of the embeddings produced by our model, which reduces the requirements for data
storage and, more importantly, retrieval time. Lastly, we analyze the algorithmic biases of our
systems.
+
En esta tesis se desarrollan sistemas de identificación de versiones musicales basados en
audio y aplicables en un entorno industrial. Por lo tanto, los tres aspectos que se abordan en
esta tesis son el desempeño, escalabilidad, y los sesgos algorítmicos en los sistemas de
identificación de versiones.
Se propone un modelo dirigido por datos que incorpora conocimiento musical en su
arquitectura de red y estrategia de entrenamiento, para lo cual se experimenta con dos
enfoques. Primero, se experimenta ...
En esta tesis se desarrollan sistemas de identificación de versiones musicales basados en
audio y aplicables en un entorno industrial. Por lo tanto, los tres aspectos que se abordan en
esta tesis son el desempeño, escalabilidad, y los sesgos algorítmicos en los sistemas de
identificación de versiones.
Se propone un modelo dirigido por datos que incorpora conocimiento musical en su
arquitectura de red y estrategia de entrenamiento, para lo cual se experimenta con dos
enfoques. Primero, se experimenta con métodos de fusión dirigidos por datos para combinar
la información de los modelos que procesan información melódica y armónica, logrando un
importante incremento en la exactitud de la identificación. Segundo, se investigan técnicas
para la destilación de embeddings para reducir su tamaño, lo cual reduce los requerimientos
de almacenamiento de datos, y lo que es más importante, del tiempo de búsqueda. Por
último, se analizan los sesgos algorítmicos de nuestros sistemas.
+