Automatic Image Description is one of the most signi cant problems in Arti cial
Intelligence, which consists of text synthesis for describing visual scenes. One of
its main applications is to assist blind people in accessing information by using
screen readers. In this project, we will study di erent methodologies for the generation
of descriptions, posing the task as a problem of text synthesis through an
Encoder-Decoder architecture, while also developing a model that can accomplish
it. Finally, ...
Automatic Image Description is one of the most signi cant problems in Arti cial
Intelligence, which consists of text synthesis for describing visual scenes. One of
its main applications is to assist blind people in accessing information by using
screen readers. In this project, we will study di erent methodologies for the generation
of descriptions, posing the task as a problem of text synthesis through an
Encoder-Decoder architecture, while also developing a model that can accomplish
it. Finally, we will implement a series of improvements (changes in the structure
or the use of visual attention mechanisms) to the previous model. We will evaluate
the results, showing that it is possible to imitate those of the State-of-the-Art.
+
La Descripció Automàtica d’Imatges és un dels problemes més destacats en Intel·ligència Artificial, el qual cosisteix en síntesi de text per descriure escenes visuals. Una de les seves principals aplicacions és l’assistència l’accés a la informació de persones amb ceguesa mitjançant l’ús de lectors de pantalla. En aquest Treball
de Fi de Grau estudiarem diverses metodologies per la generació de descripcions, plantejant la tasca com a un problema de síntesi de text mitjançant una arquitectura de ...
La Descripció Automàtica d’Imatges és un dels problemes més destacats en Intel·ligència Artificial, el qual cosisteix en síntesi de text per descriure escenes visuals. Una de les seves principals aplicacions és l’assistència l’accés a la informació de persones amb ceguesa mitjançant l’ús de lectors de pantalla. En aquest Treball
de Fi de Grau estudiarem diverses metodologies per la generació de descripcions, plantejant la tasca com a un problema de síntesi de text mitjançant una arquitectura de Codificador-Decodificador, així com també desenvoluparem un model
que ho dugui a terme. Finalment, implementarem una sèrie de millores (canvis en
l’estructura o ús de mecanismes d’atenció visual) respecte al model de referència
i n’avaluarem els resultats, tot corroborant que és possible imitar els de l’estat de
l’art.
+