Boosting image captioning with an attentional mechanism = Boosting image captioning using diverse beam search

Enllaç permanent

Descripció

  • Resum

    The task of automatically generating captions for arbitrary digital images involves both Computer Vision and Natural Language Processing. Popular approaches tackle the challenge by implementing neural networks based on frameworks capable of generating English captions of query images. Those architectures can be split into an image processing convolution neural network (CNN) encoder component transforming images to embedded vectors and a recurrent neural network (RNN) as a language model decoder component transforming embedded data to natural English sentences. In this undergraduate final project we implement and evaluate state-of-the-art image captioning algorithm upon reviewing how various architectures are used to generate captions for images. We propose the addition of an attentional based mechanism to the Long Short Term Memory (LSTM) network component of the captioning framework. In addition, we also propose the use of a Diverse Beam Search algorithm for the RNN inference module of the caption algorithm. Then the performance of the baseline implementation is compared with the new tunned captioning algorithm.
    La tasca de generar descripcions automatiques d’imatges digitals requereix coneixements en visió per computador i en processament del llenguatge natural. Bona part dels algoritmes que solucionen aquest problema empren xarxes neuronals capaces de generar descripcions en angles basades en imatges. Aquestes arquitectures es poden fragmentar en dos components. El primer component es una xarxa convolucional neuronal de processament del llenguatge encarregada de codificar imatges en vectors d’informacio. El següent component és una xarxa neuronal recurrent que modela llenguatge tot descodificant vectors d’informacio en frases en angles. En aquest projecte de fi de grau, estudiem diverses arquitectures de generació de descripcions d’imatge, implementem l’estat de l’art i avaluem el sistema resultant. En ell proposem un nou mecanisme atencional aplicat a la xarxa de llarg-curt termini de memoria del nostre descodificador d’imatges. A més, tambe proposem l’ús d’un algoritme de cerca diversa per a la inferència de descripcions d’imatge efectuada a la xarxa neuronal recurrent del nostre generador de seqüències. Finalment, avaluem les descripcions d’imatge del nostre sistema proposat en comparació a l’algoritme implementat inicialment.
  • Descripció

    Treball de fi de grau en informàtica
    Treball de fi de grau en sistemes audiovisuals
    Tutor: Xavier Binefa Valls
  • Mostra el registre complet