Neural based machine translation from Catalan Sign Language glosses to written catalan
Neural based machine translation from Catalan Sign Language glosses to written catalan
Enllaç permanent
Descripció
Resum
This thesis had two objectives: the first one was to experiment with an alternative method to statistical machine translation, which had already been researched for Catalan Sign Language (LSC), using state-of-the-art Neural Networks. More precisely, this work focuses on the yet unexplored translation task from LSC glosses to written Catalan, finding the best possible neural architecture by searching for the best hyperparameter values. The second objective was to apply existing data augmentation techniques for Sign Languages, also developing specific LSC rules, based on its grammar, in order to create a parallel corpus of synthetic data. We then used this augmented data to enhance the training of the models, achieving significant improvements over a baseline without the need of new labeled data.
Aquesta tesi tenia dos objectius: el primer era experimentar amb un mètode alternatiu a la traducció automàtica estadística, que ja s'havia investigat per a la llengua de signes catalana (LSC), utilitzant Xarxes Neuronals d'última generació. Més precisament, aquest treball es centra en la tasca de traducció encara inexplorada de les gloses LSC al català escrit, trobant la millor arquitectura neuronal possible mitjançant la recerca dels millors valors d'hiperparàmetres. El segon objectiu era aplicar les tècniques d'augment de dades existents per a les llengües de signes, desenvolupant també regles específiques de la LSC, basades en la seva gramàtica, per tal de crear un corpus paral·lel de dades sintètiques. A continuació, vam utilitzar aquestes dades augmentades per millorar la formació dels models, aconseguint millores significatives respecte a una línia de base sense necessitat de noves dades etiquetades.
Esta tesis tenía dos objetivos: el primero era experimentar un método alternativo a la traducción automática estadística, que ya había sido investigada para la Lengua de Signos Catalana (LSC), utilizando Redes Neuronales de última generación. Más precisamente, este trabajo se centra en la tarea de traducción aún inexplorada de las glosas de LSC al catalán escrito, encontrando la mejor arquitectura neuronal posible mediante la búsqueda de los mejores valores de hiperparámetros. El segundo objetivo era aplicar técnicas de aumento de datos existentes para lenguas de signos, desarrollando también reglas específicas a la LSC, basadas en su gramática, para crear un corpus paralelo de datos sintéticos. Luego utilizamos estos datos aumentados para mejorar el entrenamiento de los modelos, logrando mejoras significativas con respecto a una línea de base sin la necesidad de nuevos datos etiquetados.Descripció
Tutor: Evan McGill
Treball de fi de Grau en Enginyeria Informàtica