Data-driven musical version identification: accuracy, scalability and bias perspectives

Mostra el registre complet Registre parcial de l'ítem

  • dc.contributor.author Yesiler, M. Furkan
  • dc.contributor.other Gómez Gutiérrez, Emilia
  • dc.contributor.other Serrà Julià, Joan
  • dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
  • dc.date.accessioned 2024-03-16T02:34:30Z
  • dc.date.available 2024-03-16T02:34:30Z
  • dc.date.issued 2022-01-26T10:37:06Z
  • dc.date.issued 2022-01-26T10:37:06Z
  • dc.date.issued 2022-01-12
  • dc.date.modified 2024-03-15T10:58:03Z
  • dc.description.abstract This dissertation aims at developing audio-based musical version identification (VI) systems for industry-scale corpora. To employ such systems in industrial use cases, they must demonstrate high performance on large-scale corpora while not favoring certain musicians or tracks above others. Therefore, the three main aspects we address in this dissertation are accuracy, scalability, and algorithmic bias of VI systems. We propose a data-driven model that incorporates domain knowledge in its network architecture and training strategy. We then take two main directions to further improve our model. Firstly, we experiment with data-driven fusion methods to combine information from models that process harmonic and melodic information, which greatly enhances identification accuracy. Secondly, we investigate embedding distillation techniques to reduce the size of the embeddings produced by our model, which reduces the requirements for data storage and, more importantly, retrieval time. Lastly, we analyze the algorithmic biases of our systems.
  • dc.description.abstract En esta tesis se desarrollan sistemas de identificación de versiones musicales basados en audio y aplicables en un entorno industrial. Por lo tanto, los tres aspectos que se abordan en esta tesis son el desempeño, escalabilidad, y los sesgos algorítmicos en los sistemas de identificación de versiones. Se propone un modelo dirigido por datos que incorpora conocimiento musical en su arquitectura de red y estrategia de entrenamiento, para lo cual se experimenta con dos enfoques. Primero, se experimenta con métodos de fusión dirigidos por datos para combinar la información de los modelos que procesan información melódica y armónica, logrando un importante incremento en la exactitud de la identificación. Segundo, se investigan técnicas para la destilación de embeddings para reducir su tamaño, lo cual reduce los requerimientos de almacenamiento de datos, y lo que es más importante, del tiempo de búsqueda. Por último, se analizan los sesgos algorítmicos de nuestros sistemas.
  • dc.description.abstract Programa de doctorat en Tecnologies de la Informació i les Comunicacions
  • dc.format 168 p.
  • dc.format application/pdf
  • dc.format application/pdf
  • dc.identifier http://hdl.handle.net/10803/673264
  • dc.identifier.uri http://hdl.handle.net/10230/52347
  • dc.language.iso eng
  • dc.publisher Universitat Pompeu Fabra
  • dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
  • dc.rights http://creativecommons.org/licenses/by-nc-sa/4.0/
  • dc.rights info:eu-repo/semantics/openAccess
  • dc.source TDX (Tesis Doctorals en Xarxa)
  • dc.subject.keyword Music information retrieval
  • dc.subject.keyword Music similarity
  • dc.subject.keyword Music processing
  • dc.subject.keyword Audio processing
  • dc.subject.keyword Deep learning
  • dc.subject.keyword Representation learning
  • dc.subject.keyword Music embeddings
  • dc.subject.keyword Metric learning
  • dc.subject.keyword Embedding distillation
  • dc.subject.keyword Algorithmic bias
  • dc.subject.keyword Cover songs
  • dc.subject.keyword Recuperación de información musical
  • dc.subject.keyword Similitud musical
  • dc.subject.keyword Procesamiento de música
  • dc.subject.keyword Procesamiento de audio
  • dc.subject.keyword Aprendizaje profundo
  • dc.subject.keyword Aprendizaje de representación
  • dc.subject.keyword Aprendizaje métrico
  • dc.subject.keyword Sesgo algorítmico
  • dc.subject.keyword 62
  • dc.title Data-driven musical version identification: accuracy, scalability and bias perspectives
  • dc.type info:eu-repo/semantics/doctoralThesis
  • dc.type info:eu-repo/semantics/publishedVersion

Col·leccions