Beyond the spectrum: prosodic, noise-enhanced and self-supervised features for speech recognition

Mostra el registre complet Registre parcial de l'ítem

  • dc.contributor.author Cámbara Ruiz, Guillermo
  • dc.contributor.other Farrús, Mireia
  • dc.contributor.other Luque, Jordi
  • dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
  • dc.date.accessioned 2024-10-16T10:25:00Z
  • dc.date.available 2024-10-16T10:25:00Z
  • dc.date.issued 2024-07-19T10:37:46Z
  • dc.date.issued 2024-07-19T10:37:46Z
  • dc.date.issued 2024-04-02
  • dc.date.modified 2024-07-19T13:35:09Z
  • dc.description.abstract This dissertation investigates three methods for improving speech recognition in challenging conditions, focusing on feature enhancement and extending beyond spectral features. First, it demonstrates that incorporating prosody and voice quality into spectral feature-based models significantly reduces error rates in data-limited environments. Second, it proposes a joint training approach for speech enhancement and detection models in noisy environments, enhancing system robustness for noisy and clean speech. Lastly, it leverages phonetic information from models like wav2vec 2.0 to improve keyword classifiers on small-footprint devices without increasing latency. This method, further optimized by k-means clustering for weight compression, achieves faster inference with minimal accuracy loss. The outcome is a suite of techniques for speech feature enhancement, addressing key challenges in speech recognition. These include enhancing spectral models with additional features in data-limited settings, deploying joint training for noise resilience, and optimizing classifiers on resource-constrained devices, collectively providing adaptable solutions for AI voice assistants.
  • dc.description.abstract Aquesta dissertació examina tres estratègies innovadores per millorar el reconeixement de la parla en condicions adverses, centrant-se en l'enriquiment de les característiques de la parla més enllà dels mètodes espectrals convencionals. Primer, s'investiga com la incorporació de característiques prosòdiques i de qualitat de veu a models basats en característiques espectrals redueix significativament els errors en entorns amb dades limitades. Després, s'aborda el reconeixement en entorns sorollosos, proposant un mètode d'entrenament conjunt per models de neteja de soroll i detecció de paraules, millorant la robustesa del sistema. Finalment, per a dispositius de computació limitada, s'utilitza informació fonètica de models avançats com wav2vec2.0 per a millorar els classificadors de paraules clau sense augmentar la càrrega computacional, optimitzat mitjançant l'agrupament k-means per a compressió de pesos, garantint una inferència més ràpida amb mínima pèrdua de precisió. Aquesta recerca ofereix solucions robustes i adaptables per als reptes dels assistents de veu per IA.
  • dc.description.abstract Programa de Doctorat en Tecnologies de la Informació i les Comunicacions
  • dc.format 109 p.
  • dc.format application/pdf
  • dc.identifier http://hdl.handle.net/10803/691832
  • dc.identifier.uri http://hdl.handle.net/10230/61450
  • dc.language.iso eng
  • dc.publisher Universitat Pompeu Fabra
  • dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
  • dc.rights http://creativecommons.org/licenses/by/4.0/
  • dc.rights info:eu-repo/semantics/openAccess
  • dc.source TDX (Tesis Doctorals en Xarxa)
  • dc.subject.keyword Speech recognition
  • dc.subject.keyword speech enhancement
  • dc.subject.keyword Self-supervised learning
  • dc.subject.keyword Prosody
  • dc.subject.keyword Voice quality features
  • dc.subject.keyword Reconeixement de la parla
  • dc.subject.keyword Millora de la parla
  • dc.subject.keyword Aprenentatge auto-supervisat
  • dc.subject.keyword Prosòdia
  • dc.subject.keyword Paràmetres de qualitat de veu
  • dc.subject.keyword 62
  • dc.title Beyond the spectrum: prosodic, noise-enhanced and self-supervised features for speech recognition
  • dc.type info:eu-repo/semantics/doctoralThesis
  • dc.type info:eu-repo/semantics/publishedVersion

Col·leccions