Welcome to the UPF Digital Repository

Estudio de la definición de visema para un sistema de reconocimiento visual automático del habla

Show simple item record

dc.contributor.author Fernández López, Adriana
dc.date.accessioned 2015-12-11T13:16:32Z
dc.date.available 2015-12-11T13:16:32Z
dc.date.issued 2015-12-11
dc.identifier.uri http://hdl.handle.net/10230/25388
dc.description Treball de fi de grau en Sistemes Audiovisuals
dc.description Tutor: Federico Sukno
dc.description.abstract Las personas nos comunicamos principalmente mediante el habla, utilizando los recursos auditivos y visuales para interpretarla. El reconocimiento automático del habla se centra principalmente en interpretar las señales de audio, pero en condiciones desfavorables se ha demostrado que el vídeo puede compensar estas condiciones aportando la información oculta en el audio. El estudio del reconocimiento visual automático del habla es todavía un problema abierto en el ámbito científico. Uno de sus problemas principales es la definición de la unidad atómica del vídeo, denominado visema. En este estudio, exploramos diferentes opciones para la definición de un vocabulario de visemas basado en la agrupación de fonemas para la construcción de un sistema de procesado automático visual del habla. El sistema utiliza descriptores SIFT para extraer las características principales de cada fotograma y un modelo oculto de Markov para modelar las restricciones estadísticas de una secuencia de visemas y/o fonemas.
dc.description.abstract Les persones ens comuniquem principalment per mitjà de la parla, utilitzant els recursos /nauditius i visuals per /ninterpretar/n-/nla/n. El reconeixe/nment automàtic de la parla es basa /nprincipalment en interpretar les senyals d’àudio, però en condicions desfavorables /ns’ha /ndemostrat que el vídeo pot compensar aquestes condicions apor/ntant la informació oculta /nen l’/nàudio. L’estudi del reconeixement visual /nautomàtic de la parla es encara un /nproblema obert en /nl’àmbit/ncientífic. Un dels seus problemes principals es la definició de /nla unitat atòmica del vídeo, l’anomenat visema. En aquest estudi, explorem diferents /nopcions per a la definició d’un vocabulari de /nvisemas basat en l’agrupació de fonemes /nper a la /nconstrucció/nd’un sistema de processat automàtic visual de la parla. El sistema fa /nservir descriptors SIFT per /nextraure/nles característiques principals de cada fotograma i /nun model ocult de Markov per modelar/nles restriccions estadístiques d’una /nseqüència/nde /nvisemas i/o fonemes.
dc.format.mimetype application/pdf
dc.language.iso spa
dc.rights Attribution-NonCommercial-NoDerivs 3.0 Spain
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.subject.other Reconeixement automàtic de la parla
dc.title Estudio de la definición de visema para un sistema de reconocimiento visual automático del habla
dc.type info:eu-repo/semantics/bachelorThesis
dc.rights.accessRights info:eu-repo/semantics/openAccess


This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compliant to Partaking