The task of automatically generating captions for arbitrary digital images involves
both Computer Vision and Natural Language Processing. Popular approaches
tackle the challenge by implementing neural networks based on frameworks capable
of generating English captions of query images. Those architectures can be
split into an image processing convolution neural network (CNN) encoder component
transforming images to embedded vectors and a recurrent neural network
(RNN) as a language model decoder ...
The task of automatically generating captions for arbitrary digital images involves
both Computer Vision and Natural Language Processing. Popular approaches
tackle the challenge by implementing neural networks based on frameworks capable
of generating English captions of query images. Those architectures can be
split into an image processing convolution neural network (CNN) encoder component
transforming images to embedded vectors and a recurrent neural network
(RNN) as a language model decoder component transforming embedded data to
natural English sentences. In this undergraduate final project we implement and
evaluate state-of-the-art image captioning algorithm upon reviewing how various
architectures are used to generate captions for images. We propose the addition
of an attentional based mechanism to the Long Short Term Memory (LSTM) network
component of the captioning framework. In addition, we also propose the
use of a Diverse Beam Search algorithm for the RNN inference module of the caption
algorithm. Then the performance of the baseline implementation is compared
with the new tunned captioning algorithm.
+
La tasca de generar descripcions automatiques d’imatges digitals requereix coneixements en visió per computador i en processament del llenguatge natural. Bona part dels algoritmes que solucionen aquest problema empren xarxes neuronals
capaces de generar descripcions en angles basades en imatges. Aquestes arquitectures es poden fragmentar en dos components. El primer component es una xarxa convolucional neuronal de processament del llenguatge encarregada de codificar imatges en vectors d’informacio. ...
La tasca de generar descripcions automatiques d’imatges digitals requereix coneixements en visió per computador i en processament del llenguatge natural. Bona part dels algoritmes que solucionen aquest problema empren xarxes neuronals
capaces de generar descripcions en angles basades en imatges. Aquestes arquitectures es poden fragmentar en dos components. El primer component es una xarxa convolucional neuronal de processament del llenguatge encarregada de codificar imatges en vectors d’informacio. El següent component és una xarxa neuronal
recurrent que modela llenguatge tot descodificant vectors d’informacio en frases
en angles. En aquest projecte de fi de grau, estudiem diverses arquitectures de
generació de descripcions d’imatge, implementem l’estat de l’art i avaluem el sistema resultant. En ell proposem un nou mecanisme atencional aplicat a la xarxa
de llarg-curt termini de memoria del nostre descodificador d’imatges. A més, tambe proposem l’ús d’un algoritme de cerca diversa per a la inferència de descripcions d’imatge efectuada a la xarxa neuronal recurrent del nostre generador
de seqüències. Finalment, avaluem les descripcions d’imatge del nostre sistema proposat en comparació a l’algoritme implementat inicialment.
+