Automatic image captioning for web accessibility as an Encoder-Decoder problem
Automatic image captioning for web accessibility as an Encoder-Decoder problem
Enllaç permanent
Descripció
Resum
Automatic Image Description is one of the most signi cant problems in Arti cial Intelligence, which consists of text synthesis for describing visual scenes. One of its main applications is to assist blind people in accessing information by using screen readers. In this project, we will study di erent methodologies for the generation of descriptions, posing the task as a problem of text synthesis through an Encoder-Decoder architecture, while also developing a model that can accomplish it. Finally, we will implement a series of improvements (changes in the structure or the use of visual attention mechanisms) to the previous model. We will evaluate the results, showing that it is possible to imitate those of the State-of-the-Art.
La Descripció Automàtica d’Imatges és un dels problemes més destacats en Intel·ligència Artificial, el qual cosisteix en síntesi de text per descriure escenes visuals. Una de les seves principals aplicacions és l’assistència l’accés a la informació de persones amb ceguesa mitjançant l’ús de lectors de pantalla. En aquest Treball de Fi de Grau estudiarem diverses metodologies per la generació de descripcions, plantejant la tasca com a un problema de síntesi de text mitjançant una arquitectura de Codificador-Decodificador, així com també desenvoluparem un model que ho dugui a terme. Finalment, implementarem una sèrie de millores (canvis en l’estructura o ús de mecanismes d’atenció visual) respecte al model de referència i n’avaluarem els resultats, tot corroborant que és possible imitar els de l’estat de l’art.Descripció
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Juan Soler-Company