Audio-visual deep learning methods for musical instrument classification and separation
Mostra el registre complet Registre parcial de l'ítem
- dc.contributor.author Slizovskaia, Olga
- dc.contributor.other Gómez Gutiérrez, Emilia
- dc.contributor.other Haro Ortega, Gloria
- dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
- dc.date.accessioned 2024-03-16T02:34:35Z
- dc.date.available 2024-03-16T02:34:35Z
- dc.date.issued 2020-11-09T12:58:04Z
- dc.date.issued 2021-10-21T02:00:14Z
- dc.date.issued 2020-10-21
- dc.date.modified 2024-03-15T10:58:00Z
- dc.description.abstract In music perception, the information we receive from a visual system and audio system is often complementary. Moreover, visual perception plays an important role in the overall experience of being exposed to a music performance. This fact brings attention to machine learning methods that could combine audio and visual information for automatic music analysis. This thesis addresses two research problems: instrument classification and source separation in the context of music performance videos. A multimodal approach for each task is developed using deep learning techniques to train an encoded representation for each modality. For source separation, we also study two approaches conditioned on instrument labels and examine the influence that two extra sources of information have on separation performance compared with a conventional model. Another important aspect of this work is in the exploration of different fusion methods which allow for better multimodal integration of information sources from associated domains.
- dc.description.abstract En la percepción musical, normalmente recibimos por nuestro sistema visual y por nuestro sistema auditivo informaciones complementarias. Además, la percepción visual juega un papel importante en nuestra experiencia integral ante una interpretación musical. Esta relación entre audio y visión ha incrementado el interés en métodos de aprendizaje automático capaces de combinar ambas modalidades para el análisis musical automático. Esta tesis se centra en dos problemas principales: la clasificación de instrumentos y la separación de fuentes en el contexto de videos musicales. Para cada uno de los problemas, se desarrolla un método multimodal utilizando técnicas de Deep Learning. Esto nos permite obtener -a través del aprendizaje- una representación codificada para cada modalidad. Además, para el problema de la separación de fuentes, también proponemos dos modelos condicionados a las etiquetas de los instrumentos, y examinamos la influencia que tienen dos fuentes de información extra en el rendimiento de la separación -comparándolas contra un modelo convencional-. Otro aspecto importante de este trabajo se basa en la exploración de diferentes modelos de fusión que permiten una mejor integración multimodal de fuentes de información de dominios asociados.
- dc.description.abstract En la percepció visual, és habitual que rebem informacions complementàries des del nostres sistemes visual i auditiu. A més a més, la percepció visual té un paper molt important en la nostra experiència integral davant una interpretació musical. Aquesta relació entre àudio i visió ha fet créixer l'interès en mètodes d’aprenentatge automàtic capaços de combinar ambdues modalitats per l’anàlisi musical automàtic. Aquesta tesi se centra en dos problemes principals: la classificació d'instruments i la separació de fonts en el context dels vídeos musicals. Per a cadascú dels problemes, s'ha desenvolupat un mètode multimodal fent servir tècniques de Deep Learning. Això ens ha permès d'obtenir – gràcies a l’aprenentatge- una representació codificada per a cada modalitat. A més a més, en el cas del problema de separació de fonts, també proposem dos models condicionats a les etiquetes dels instruments, i examinem la influència que tenen dos fonts d’informació extra sobre el rendiment de la separació -tot comparant-les amb un model convencional-. Un altre aspecte d’aquest treball es basa en l’exploració de diferents models de fusió, els quals permeten una millor integració multimodal de fonts d'informació de dominis associats.
- dc.description.abstract Programa de doctorat en Tecnologies de la Informació i les Comunicacions
- dc.format 156 p.
- dc.format application/pdf
- dc.format application/pdf
- dc.identifier http://hdl.handle.net/10803/669963
- dc.identifier.uri http://hdl.handle.net/10230/45710
- dc.language.iso eng
- dc.publisher Universitat Pompeu Fabra
- dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
- dc.rights http://creativecommons.org/licenses/by-sa/4.0/
- dc.rights info:eu-repo/semantics/openAccess
- dc.source TDX (Tesis Doctorals en Xarxa)
- dc.subject.keyword Audio-visual deep learning
- dc.subject.keyword Multimodal deep learning
- dc.subject.keyword Music information retrieval
- dc.subject.keyword Musical performance video
- dc.subject.keyword Musical performance analysis
- dc.subject.keyword Musical instrument classification
- dc.subject.keyword Sound source separation
- dc.subject.keyword Fusion techniques
- dc.subject.keyword Conditioning techniques
- dc.subject.keyword Aprendizaje profundo audiovisual
- dc.subject.keyword Aprendizaje profundo multimodal
- dc.subject.keyword Recuperación de información musical
- dc.subject.keyword Video musical
- dc.subject.keyword Análisis de interpretación musical
- dc.subject.keyword Clasificación de instrumentos musicales
- dc.subject.keyword Separación de fuentes de sonido
- dc.subject.keyword Técnicas de fusión
- dc.subject.keyword Técnicas de acondicionamiento
- dc.subject.keyword 62
- dc.title Audio-visual deep learning methods for musical instrument classification and separation
- dc.type info:eu-repo/semantics/doctoralThesis
- dc.type info:eu-repo/semantics/publishedVersion