The automatic recognition of sound events has gained attention in the past few years,
motivated by emerging applications in fields such as healthcare, smart homes, or urban
planning. When the work for this thesis started, research on sound event classification was
mainly focused on supervised learning using small datasets, often carefully annotated with
vocabularies limited to specific domains (e.g., urban or domestic). However, such small
datasets do not support training classifiers able to recognize ...
The automatic recognition of sound events has gained attention in the past few years,
motivated by emerging applications in fields such as healthcare, smart homes, or urban
planning. When the work for this thesis started, research on sound event classification was
mainly focused on supervised learning using small datasets, often carefully annotated with
vocabularies limited to specific domains (e.g., urban or domestic). However, such small
datasets do not support training classifiers able to recognize hundreds of sound events
occurring in our everyday environment, such as kettle whistles, bird tweets, cars passing by,
or different types of alarms. At the same time, large amounts of environmental sound data
are hosted in websites such as Freesound or YouTube, which can be convenient for training
large-vocabulary classifiers, particularly using data-hungry deep learning approaches.
To advance the state-of-the-art in sound event classification, this thesis investigates several
strands of dataset creation as well as supervised and unsupervised learning to train
large-vocabulary sound event classifiers, using different types of supervision in novel and
alternative ways. Specifically, we focus on supervised learning using clean and noisy labels,
as well as self-supervised representation learning from unlabeled data.
The first part of this thesis focuses on the creation of FSD50K, a large-vocabulary dataset
with over 100h of audio manually labeled using 200 classes of sound events. We provide a
detailed description of the creation process and a comprehensive characterization of the
dataset. In addition, we explore architectural modifications to increase shift invariance in
CNNs, improving robustness to time/frequency shifts in input spectrograms. In the second
part, we focus on training sound event classifiers using noisy labels. First, we propose a
dataset that supports the investigation of real label noise. Then, we explore network-agnostic
approaches to mitigate the effect of label noise during training, including regularization
techniques, noise-robust loss functions, and strategies to reject noisy labeled examples.
Further, we develop a teacher-student framework to address the problem of missing labels in
sound event datasets. In the third part, we propose algorithms to learn audio representations
from unlabeled data. In particular, we develop self-supervised contrastive learning
frameworks, where representations are learned by comparing pairs of examples computed
via data augmentation and automatic sound separation methods.
Finally, we report on the organization of two DCASE Challenge Tasks on automatic audio
tagging with noisy labels. By providing data resources as well as state-of-the-art approaches
and audio representations, this thesis contributes to the advancement of open sound event
research, and to the transition from traditional supervised learning using clean labels to other
learning strategies less dependent on costly annotation efforts.
+
El interés en el reconocimiento automático de eventos sonoros se ha incrementado en los
últimos años, motivado por nuevas aplicaciones en campos como la asistencia médica,
smart homes, o urbanismo. Al comienzo de esta tesis, la investigación en clasificación de
eventos sonoros se centraba principalmente en aprendizaje supervisado usando datasets
pequeños, a menudo anotados cuidadosamente con vocabularios limitados a dominios
específicos (como el urbano o el doméstico). Sin embargo, tales datasets ...
El interés en el reconocimiento automático de eventos sonoros se ha incrementado en los
últimos años, motivado por nuevas aplicaciones en campos como la asistencia médica,
smart homes, o urbanismo. Al comienzo de esta tesis, la investigación en clasificación de
eventos sonoros se centraba principalmente en aprendizaje supervisado usando datasets
pequeños, a menudo anotados cuidadosamente con vocabularios limitados a dominios
específicos (como el urbano o el doméstico). Sin embargo, tales datasets no permiten
entrenar clasificadores capaces de reconocer los cientos de eventos sonoros que ocurren
en nuestro entorno, como silbidos de kettle, sonidos de pájaros, coches pasando, o
diferentes alarmas. Al mismo tiempo, websites como Freesound o YouTube albergan
grandes cantidades de datos de sonido ambiental, que pueden ser útiles para entrenar
clasificadores con un vocabulario más extenso, particularmente utilizando métodos de deep
learning que requieren gran cantidad de datos. Para avanzar el estado del arte en la
clasificación de eventos sonoros, esta tesis investiga varios aspectos de la creación de
datasets, así como de aprendizaje supervisado y no supervisado para entrenar
clasificadores de eventos sonoros con un vocabulario extenso, utilizando diferentes tipos de
supervisión de manera novedosa y alternativa. En concreto, nos centramos en aprendizaje
supervisado usando etiquetas sin ruido y con ruido, así como en aprendizaje de
representaciones auto-supervisado a partir de datos no etiquetados.
La primera parte de esta tesis se centra en la creación de FSD50K, un dataset con más de
100h de audio etiquetado manualmente usando 200 clases de eventos sonoros.
Presentamos una descripción detallada del proceso de creación y una caracterización
exhaustiva del dataset. Además, exploramos modificaciones arquitectónicas para aumentar
la invariancia frente a desplazamientos en CNNs, mejorando la robustez frente a
desplazamientos de tiempo/frecuencia en los espectrogramas de entrada. En la segunda
parte, nos centramos en entrenar clasificadores de eventos sonoros usando etiquetas con
ruido. Primero, proponemos un dataset que permite la investigación del ruido de etiquetas
real. Después, exploramos métodos agnósticos a la arquitectura de red para mitigar el
efecto del ruido en las etiquetas durante el entrenamiento, incluyendo técnicas de
regularización, funciones de coste robustas al ruido, y estrategias para rechazar ejemplos
etiquetados con ruido. Además, desarrollamos un método teacher-student para abordar el
problema de las etiquetas ausentes en datasets de eventos sonoros. En la tercera parte,
proponemos algoritmos para aprender representaciones de audio a partir de datos sin
etiquetar. En particular, desarrollamos métodos de aprendizaje contrastivos
auto-supervisados, donde las representaciones se aprenden comparando pares de
ejemplos calculados a través de métodos de aumento de datos y separación automática de
sonido. Finalmente, reportamos sobre la organización de dos DCASE Challenge Tasks para
el tageado automático de audio a partir de etiquetas ruidosas. Mediante la propuesta de
datasets, así como de métodos de vanguardia y representaciones de audio, esta tesis
contribuye al avance de la investigación abierta sobre eventos sonoros y a la transición del
aprendizaje supervisado tradicional utilizando etiquetas sin ruido a otras estrategias de
aprendizaje menos dependientes de costosos esfuerzos de anotación.
+
Programa de doctorat en Tecnologies de la Informació i les Comunicacions