Neural machine translation evaluation & error analysis in a Spanish-Korean translation

Enllaç permanent

Descripció

  • Resum

    From RBMT to SMT and NMT, the MT field witnessed, first, a conceptual turn —from rule-based to data-base— and now, a technological turn —from MT algorithm to ML algorithm. Now that NMT became a new state of the art, this thesis quested for evaluating its performance in a Spanish-to-Korean translation, which, for the best of our knowledge, was the first attempt in this regard. The results reported that the NMT-based Google Translate (GNMT) had about 78% of reliability. In an experiment with post-editing, the post-editing was 37% more productive in GNMT than translation from scratch. An important finding was obtained from quantitative and qualitative error analysis. It reported that only 6% of the errors detected in the dataset were a syntactic error in such a distant pair like this. The results of this thesis served as a proof of a promising future of NMT in distant pairs.
    Des de la Traducció Automàtica (TA) basada en regles a la TA estadística i la TA neuronal (TAN), el camp de la TA va presenciar, primer, un gir conceptual - des d'aproximacions basades en regles fins aproximacions basades en dades- i ara, un gir tecnològic –de l’algoritme de la TA al d'Aprenentatge Automàtic. Ara que la TAN s'ha convertit en un nou estat de l'art, busquem avaluar el seu grau de qualitat en la traducció de l'espanyol al coreà,. Aquest estudie constitueix, segons el nostre coneixement, el primer que intenta avaluar aquest parell de llengües. Els resultats informen que Google Translate, basada en la TAN té al voltant el 78% de fiabilitat. En un experiment amb postedició, la postedició és un 37% més productiva que la traducció des de zero. Apartir d'una anàlisi d'errors quantitativa i qualitativa hem pogut fer constatar que només el 6% dels errors detectats van ser de naturalesa sintàctica en un parell de llengües tan distant com aquest. Els resultats obtinguts en aquesta tesi van servir com a prova per a un futur prometedor de la TAN en parells distants.
    Desde la Traducción Automática (TA) basada en reglas a la TA estadística y la TA neuronal (TAN), el campo de la TA presenció, primero, un giro conceptual —desde aproximaciones basadas en reglas hasta aproximaciones basadas en datos— y ahora, un giro tecnológico —del algoritmo de la TA al de Aprendizaje Automático. Ahora que la TAN se ha convertido en un nuevo estado del arte, buscamos evaluar su desempeño en la traducción del español al coreano, que constituye, según nuestro conocimiento, el primer intento al respecto. Los resultados informan que Google Translate basada en la TAN tenía alrededor del 78% de fiabilidad. En un experimento con posedición, la posedición es un 37% más productiva que la traducción desde cero. Obtuvimos un hallazgo importante a partir de un análisis de errores cuantitativo y cualitativo. Informamos que solo el 6% de los errores detectados fueron sintácticos en un par de lenguas tan distante como este. Nuestros resultados sirvieron como prueba para un futuro prometedor de la TAN en pares distantes.
    Programa de doctorat en Traducció i Ciències del Llenguatge
  • Col·leccions

  • Mostra el registre complet