Welcome to the UPF Digital Repository

Audio-visual deep learning methods for musical instrument classification and separation

Show simple item record

dc.contributor.author Slizovskaia, Olga
dc.contributor.other Gómez Gutiérrez, Emilia, 1975-
dc.contributor.other Haro Ortega, Gloria
dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.date.accessioned 2021-10-22T01:28:12Z
dc.date.available 2021-10-22T01:28:12Z
dc.date.issued 2020-10-21
dc.identifier http://hdl.handle.net/10803/669963
dc.identifier.uri http://hdl.handle.net/10230/45710
dc.description.abstract In music perception, the information we receive from a visual system and audio system is often complementary. Moreover, visual perception plays an important role in the overall experience of being exposed to a music performance. This fact brings attention to machine learning methods that could combine audio and visual information for automatic music analysis. This thesis addresses two research problems: instrument classification and source separation in the context of music performance videos. A multimodal approach for each task is developed using deep learning techniques to train an encoded representation for each modality. For source separation, we also study two approaches conditioned on instrument labels and examine the influence that two extra sources of information have on separation performance compared with a conventional model. Another important aspect of this work is in the exploration of different fusion methods which allow for better multimodal integration of information sources from associated domains.
dc.description.abstract En la percepción musical, normalmente recibimos por nuestro sistema visual y por nuestro sistema auditivo informaciones complementarias. Además, la percepción visual juega un papel importante en nuestra experiencia integral ante una interpretación musical. Esta relación entre audio y visión ha incrementado el interés en métodos de aprendizaje automático capaces de combinar ambas modalidades para el análisis musical automático. Esta tesis se centra en dos problemas principales: la clasificación de instrumentos y la separación de fuentes en el contexto de videos musicales. Para cada uno de los problemas, se desarrolla un método multimodal utilizando técnicas de Deep Learning. Esto nos permite obtener -a través del aprendizaje- una representación codificada para cada modalidad. Además, para el problema de la separación de fuentes, también proponemos dos modelos condicionados a las etiquetas de los instrumentos, y examinamos la influencia que tienen dos fuentes de información extra en el rendimiento de la separación -comparándolas contra un modelo convencional-. Otro aspecto importante de este trabajo se basa en la exploración de diferentes modelos de fusión que permiten una mejor integración multimodal de fuentes de información de dominios asociados.
dc.description.abstract En la percepció visual, és habitual que rebem informacions complementàries des del nostres sistemes visual i auditiu. A més a més, la percepció visual té un paper molt important en la nostra experiència integral davant una interpretació musical. Aquesta relació entre àudio i visió ha fet créixer l'interès en mètodes d’aprenentatge automàtic capaços de combinar ambdues modalitats per l’anàlisi musical automàtic. Aquesta tesi se centra en dos problemes principals: la classificació d'instruments i la separació de fonts en el context dels vídeos musicals. Per a cadascú dels problemes, s'ha desenvolupat un mètode multimodal fent servir tècniques de Deep Learning. Això ens ha permès d'obtenir – gràcies a l’aprenentatge- una representació codificada per a cada modalitat. A més a més, en el cas del problema de separació de fonts, també proposem dos models condicionats a les etiquetes dels instruments, i examinem la influència que tenen dos fonts d’informació extra sobre el rendiment de la separació -tot comparant-les amb un model convencional-. Un altre aspecte d’aquest treball es basa en l’exploració de diferents models de fusió, els quals permeten una millor integració multimodal de fonts d'informació de dominis associats.
dc.format application/pdf
dc.format 156 p.
dc.language.iso eng
dc.publisher Universitat Pompeu Fabra
dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
dc.rights info:eu-repo/semantics/openAccess
dc.source TDX (Tesis Doctorals en Xarxa)
dc.title Audio-visual deep learning methods for musical instrument classification and separation
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.date.modified 2021-10-21T02:00:14Z
dc.subject.keyword Audio-visual deep learning
dc.subject.keyword Multimodal deep learning
dc.subject.keyword Music information retrieval
dc.subject.keyword Musical performance video
dc.subject.keyword Musical performance analysis
dc.subject.keyword Musical instrument classification
dc.subject.keyword Sound source separation
dc.subject.keyword Fusion techniques
dc.subject.keyword Conditioning techniques
dc.subject.keyword Aprendizaje profundo audiovisual
dc.subject.keyword Aprendizaje profundo multimodal
dc.subject.keyword Recuperación de información musical
dc.subject.keyword Video musical
dc.subject.keyword Análisis de interpretación musical
dc.subject.keyword Clasificación de instrumentos musicales
dc.subject.keyword Separación de fuentes de sonido
dc.subject.keyword Técnicas de fusión
dc.subject.keyword Técnicas de acondicionamiento
dc.subject.keyword 62


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compliant to Partaking