Enriching low resource statistical machine translation using induced bilingual lexicons
Enriching low resource statistical machine translation using induced bilingual lexicons
Citació
- Jingyi H, Bel N. Enriching low resource statistical machine translation using induced bilingual lexicons. Procesamiento del Lenguaje Natural. 2017;59: 91-8.
Enllaç permanent
Descripció
Resum
En este artículo presentamos un m etodo para ampliar la tabla de frases de un traductor automático estadístico con entradas biling ues creadas autom aticamente con un clasificador supervisado. El clasificador es entrenado con una representaci on vectorial en la que se concatenan el vector distribuido (Word Embed-dings, WE) y una representación de agrupaciones de Brown (Brown clusters, BC) de 2 palabras equivalentes de traducción. El clasificador alcanza una F1 de 0,94 y el resultado de la evaluación del sistema de traducción automática entre chino y español muestra una mejora de hasta +0,70 BLEU, demostrando que las malas traducciones producidas por el clasi cador son controladas bien por el sistema de traducción.
In this work we present an experiment for enriching a Statistical Machine Translation (SMT) phrase table with automatically created bilingual word pairs. The bilingual lexicon is induced with a supervised classifier trained using a joint representation of word embeddings (WE) and Brown clusters (BC) of translation equivalent word pairs as features. The classifier reaches a 0.94 F-score and the MT experiment results show an improvement of up to +0.70 BLEU over a low resource Chinese-Spanish phrase-based SMT baseline, demonstrating that bad entries delivered by the classi er are well handled.