Welcome to the UPF Digital Repository

Incorporating prosody into neural speech processing pipelines: applications on automatic speech transcription and spoken language machine translation

Show simple item record

dc.contributor.author Öktem, Alp
dc.contributor.other Farrús, Mireia
dc.contributor.other Bonafonte Cávez, Antonio
dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.date.accessioned 2019-03-15T02:23:21Z
dc.date.available 2019-03-15T02:23:21Z
dc.date.issued 2019-02-25
dc.identifier http://hdl.handle.net/10803/666222
dc.identifier.uri http://hdl.handle.net/10230/36835
dc.description.abstract In this dissertation, I study the inclusion of prosody into two applications that involve speech understanding:~automatic speech transcription and spoken language translation. In the former case, I propose a method that uses an attention mechanism over parallel sequences of prosodic and morphosyntactic features. Results indicate an $F_1$ score of 70.3\% in terms of overall punctuation generation accuracy. In the latter problem I deal with enhancing spoken language translation with prosody. A neural machine translation system trained with movie-domain data is adapted with pause features using a prosodically annotated bilingual dataset. Results show that prosodic punctuation generation as a preliminary step to translation increases translation accuracy by 1\% in terms of BLEU scores. Encoding pauses as an extra encoding feature gives an additional 1\% increase to this number. The system is further extended to jointly predict pause features in order to be used as an input to a text-to-speech system.
dc.description.abstract En aquesta tesi estudio la inclusió de la prosòdia en dues aplicacions que involucren la comprensió de la parla:~la transcripció automàtica de la parla i la traducció de la llengua oral. En el primer cas, proposo un mètode que utilitza un mecanisme d’atenció sobre seqüències paral·leles de característiques prosòdiques i morfosintàctiques. Els resultats indiquen una precisió de $F_1$=70.3\% en la generació de la puntuació. En el segon cas m'ocupo de la millora de la traducció de la llengua oral utilitzant la prosòdia. Un sistema neural de traducció automàtica format amb un corpus de text en el domini del cinema s’adapta amb característiques de pauses afegides utilitzant un conjunt de dades bilingües prosòdicament anotada. Els resultats mostren que la generació de puntuació prosòdica com a pas previ a la traducció augmenta la precisió de la traducció en un 1\% en termes de BLEU. La codificació de les pauses com a característica addicional encara incrementa la precisió en un altre 1\%. A més a més, amplio el sistema de traducció per a predir conjuntament les característiques de pausa i poder-les utilitzar com a entrada en un sistema de síntesi de veu.
dc.format application/pdf
dc.format 139 p.
dc.language.iso eng
dc.publisher Universitat Pompeu Fabra
dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
dc.rights info:eu-repo/semantics/openAccess
dc.source TDX (Tesis Doctorals en Xarxa)
dc.title Incorporating prosody into neural speech processing pipelines: applications on automatic speech transcription and spoken language machine translation
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.date.modified 2019-03-13T12:11:41Z
dc.subject.keyword Prosody
dc.subject.keyword Automatic speech transcription
dc.subject.keyword Punctuation restoration
dc.subject.keyword Spoken language machine translation
dc.subject.keyword Bilingual spoken corpus
dc.subject.keyword Prosòdia
dc.subject.keyword Transcripció automàtica de la parla
dc.subject.keyword Restauració de la puntuació
dc.subject.keyword Traducció automàtica de llenguatge oral
dc.subject.keyword Corpus bilingües
dc.subject.keyword 62


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compliant to Partaking