Las personas nos comunicamos principalmente mediante el habla, utilizando los recursos auditivos y visuales para interpretarla. El reconocimiento automático del habla se centra principalmente en interpretar las señales de audio, pero en condiciones desfavorables se ha demostrado que el vídeo puede compensar estas condiciones aportando la información oculta en el audio. El estudio del reconocimiento visual automático del habla es todavía un problema abierto en el ámbito científico. Uno de sus problemas ...
Las personas nos comunicamos principalmente mediante el habla, utilizando los recursos auditivos y visuales para interpretarla. El reconocimiento automático del habla se centra principalmente en interpretar las señales de audio, pero en condiciones desfavorables se ha demostrado que el vídeo puede compensar estas condiciones aportando la información oculta en el audio. El estudio del reconocimiento visual automático del habla es todavía un problema abierto en el ámbito científico. Uno de sus problemas principales es la definición de la unidad atómica del vídeo, denominado visema. En este estudio, exploramos diferentes opciones para la definición de un vocabulario de visemas basado en la agrupación de fonemas para la construcción de un sistema de procesado automático visual del habla. El sistema utiliza descriptores SIFT para extraer las características principales de cada fotograma y un modelo oculto de Markov para modelar las restricciones estadísticas de una secuencia de visemas y/o fonemas.
+
Les persones ens comuniquem principalment per mitjà de la parla, utilitzant els recursos /nauditius i visuals per /ninterpretar/n-/nla/n. El reconeixe/nment automàtic de la parla es basa /nprincipalment en interpretar les senyals d’àudio, però en condicions desfavorables /ns’ha /ndemostrat que el vídeo pot compensar aquestes condicions apor/ntant la informació oculta /nen l’/nàudio. L’estudi del reconeixement visual /nautomàtic de la parla es encara un /nproblema obert en /nl’àmbit/ncientífic. ...
Les persones ens comuniquem principalment per mitjà de la parla, utilitzant els recursos /nauditius i visuals per /ninterpretar/n-/nla/n. El reconeixe/nment automàtic de la parla es basa /nprincipalment en interpretar les senyals d’àudio, però en condicions desfavorables /ns’ha /ndemostrat que el vídeo pot compensar aquestes condicions apor/ntant la informació oculta /nen l’/nàudio. L’estudi del reconeixement visual /nautomàtic de la parla es encara un /nproblema obert en /nl’àmbit/ncientífic. Un dels seus problemes principals es la definició de /nla unitat atòmica del vídeo, l’anomenat visema. En aquest estudi, explorem diferents /nopcions per a la definició d’un vocabulari de /nvisemas basat en l’agrupació de fonemes /nper a la /nconstrucció/nd’un sistema de processat automàtic visual de la parla. El sistema fa /nservir descriptors SIFT per /nextraure/nles característiques principals de cada fotograma i /nun model ocult de Markov per modelar/nles restriccions estadístiques d’una /nseqüència/nde /nvisemas i/o fonemes.
+