Millora de la naturalitat i l’expressivitat en la síntesi de veu
Millora de la naturalitat i l’expressivitat en la síntesi de veu
Enllaç permanent
Descripció
Resum
La interacció persona-màquina ha augmentat exponencialment durant els últims anys. Un exemple d’aquest creixement es pot veure en el camp del processament de la parla, i en concret en el de la síntesi de veu. Aquest treball va sobre el tractament de la síntesi de veu dins el marc del projecte KRISTINA, orientat al sector mèdic, on s’utilitzarà veu sintetitzada perquè els pacients amb dificultats de comprensió de la llengua autòctona del país on viuen s’hi puguin comunicar. Els sintetitzadors de veu (o Text-To-Speech (TTS) systems, en anglès) acostumen a ser monòtons i amb poca naturalitat. Un dels objectius d’aquest treball és aconseguir generar una millor veu per a l’avatar del projecte KRISTINA, dotant-la de més naturalitat i expressivitat, de manera que s’acosti al màxim a una veu humana. Hem treballat la prosòdia a nivell de paràgraf i a nivell d’estructura comunicativa, utilitzant diferents sintetitzadors de veu. Mitjançant l’anàlisi i l’aplicació de diversos llenguatges d’etiquetes de veu utilitzats per a modificar determinades característiques prosòdiques relacionades amb l’entonació, la durada i la intensitat, hem aconseguit millores en la naturalitat i l’expressivitat de la veu sintetitzada.
The human-computer interaction has increased exponentially in recent years. An example of this growth can be seen in the field of speech processing, specifically in speech synthesis. This work is about the treatment of speech synthesis within the framework of KRISTINA, a project oriented in the medical sector, which develop a conversational avatar to facilitate communication with patients with difficulties in understanding the native language of the country where they live. The majority of Text-to-Speech (TTS) voice synthesizers tend to be monotonous and with few naturalness, and one of the aims of this work is to create a better voice for KRISTINA avatar, providing it with more naturalness and expressiveness, approaching as close as possible to a human voice. We have worked prosody paragraph level and in terms of communicative structure, by using several speech synthesizers. By analyzing and applying different speech synthesis markup languages used to modify certain prosodic characteristics related to intonation, duration and intensity, we achieved improvements in naturalness and expressiveness of the synthesized voice.Descripció
Treball de fi de grau en Sistemes Audiovisuals
Tutora: Mireia Farrús i Cabeceran