Deep audio representation learning for music using weak supervision
Mostra el registre complet Registre parcial de l'ítem
- dc.contributor.author Alonso Jiménez, Pablo
- dc.contributor.other Bogdanov, Dmitry
- dc.contributor.other Serra Casals, Xavier
- dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
- dc.date.accessioned 2024-10-25T01:35:42Z
- dc.date.available 2024-10-25T01:35:42Z
- dc.date.issued 2024-10-24T10:46:14Z
- dc.date.issued 2024-10-24T10:46:14Z
- dc.date.issued 2024-10-03
- dc.date.modified 2024-10-24T13:28:24Z
- dc.description.abstract Music audio tagging is the Music Information Retrieval task of assigning one or multiple labels to an audio signal. Current state-of-the-art music taggers rely on deep learning approaches, which offer high performance but introduce challenges due to their large data requirements and tendency to overfit. In this thesis, we propose addressing music tagging from the perspective of representation learning, which consists of designing pre-training objectives that make the learned representations suitable for several downstream tasks. In our work we investigate using representations learned by competitive music and audio tagging systems, the effectiveness of training representation models on music metadata (such as artist names and playlists) as a source of supervision, the usage of the transformer architecture for representation learning, and the adaptation of audio interpretability strategies to operate with pre-trained representations. Most of the models developed in this thesis were incorporated into Essentia,1 an open-source sound and music analysis library.
- dc.description.abstract L'etiquetatge d'àudio musical és una tasca de Recuperació d'Informació Musical que assigna etiquetes a un senyal d'àudio. Els etiquetadors musicals més avançats actualment es basen en l'aprenentatge profund, que ofereix un alt rendiment però també desafiaments per la gran quantitat de dades requerides i la tendència a sobreajustar-se. Aquesta tesi aborda l'etiquetatge musical des de l'aprenentatge de representacions, dissenyant objectius de preentrenament per fer les representacions apreses adequades per a diverses tasques posteriors. En el nostre treball, investigem l'ús de representacions apreses per sistemes competitius d'etiquetatge musical i d'àudio, l'eficàcia d'entrenar models de representació amb metadades musicals (com noms d'artistes i llistes de reproducció) com a font de supervisió, l'ús de l'arquitectura transformer per a l'aprenentatge de representacions, i l'adaptació d'estratègies d'interpretabilitat d'àudio amb representacions preentrenades. La majoria dels models desenvolupats es van incorporar a Essentia, una biblioteca de codi obert per a l'anàlisi de so i música.
- dc.description.abstract Programa de Doctorat en Tecnologies de la Informació i les Comunicacions
- dc.format 147 p.
- dc.format application/pdf
- dc.identifier http://hdl.handle.net/10803/692389
- dc.identifier.uri http://hdl.handle.net/10230/68344
- dc.language.iso eng
- dc.publisher Universitat Pompeu Fabra
- dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
- dc.rights http://creativecommons.org/licenses/by-nc-sa/4.0/
- dc.rights info:eu-repo/semantics/openAccess
- dc.source TDX (Tesis Doctorals en Xarxa)
- dc.subject.keyword Representation learning
- dc.subject.keyword Music Information Retrieval
- dc.subject.keyword Music tagging
- dc.subject.keyword Music classification
- dc.subject.keyword Deep learning
- dc.subject.keyword Audio processing
- dc.subject.keyword Aprenentatge de representacions
- dc.subject.keyword Recuperació d'Informació Musical
- dc.subject.keyword Etiquetatge d'àudio musical
- dc.subject.keyword Classificació musical
- dc.subject.keyword Aprenentatge profund
- dc.subject.keyword Processament d'àudio
- dc.subject.keyword 62
- dc.title Deep audio representation learning for music using weak supervision
- dc.type info:eu-repo/semantics/doctoralThesis
- dc.type info:eu-repo/semantics/publishedVersion