Enriching low resource statistical machine translation using induced bilingual lexicons
Mostra el registre complet Registre parcial de l'ítem
- dc.contributor.author Bel Rafecas, Núriaca
- dc.contributor.author Jingyi, Hanca
- dc.date.accessioned 2018-01-16T11:23:46Z
- dc.date.available 2018-01-16T11:23:46Z
- dc.date.issued 2017
- dc.description.abstract En este artículo presentamos un m etodo para ampliar la tabla de frases de un traductor automático estadístico con entradas biling ues creadas autom aticamente con un clasificador supervisado. El clasificador es entrenado con una representaci on vectorial en la que se concatenan el vector distribuido (Word Embed-dings, WE) y una representación de agrupaciones de Brown (Brown clusters, BC) de 2 palabras equivalentes de traducción. El clasificador alcanza una F1 de 0,94 y el resultado de la evaluación del sistema de traducción automática entre chino y español muestra una mejora de hasta +0,70 BLEU, demostrando que las malas traducciones producidas por el clasi cador son controladas bien por el sistema de traducción.es
- dc.description.abstract In this work we present an experiment for enriching a Statistical Machine Translation (SMT) phrase table with automatically created bilingual word pairs. The bilingual lexicon is induced with a supervised classifier trained using a joint representation of word embeddings (WE) and Brown clusters (BC) of translation equivalent word pairs as features. The classifier reaches a 0.94 F-score and the MT experiment results show an improvement of up to +0.70 BLEU over a low resource Chinese-Spanish phrase-based SMT baseline, demonstrating that bad entries delivered by the classi er are well handled.en
- dc.description.sponsorship Han Jingyi was supported by the FI-DGR grant program of Generalitat de Catalunya.
- dc.format.mimetype application/pdfca
- dc.identifier.citation Jingyi H, Bel N. Enriching low resource statistical machine translation using induced bilingual lexicons. Procesamiento del Lenguaje Natural. 2017;59: 91-8.
- dc.identifier.issn 1135-5948
- dc.identifier.uri http://hdl.handle.net/10230/33639
- dc.language.iso eng
- dc.publisher Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)ca
- dc.relation.ispartof Procesamiento del Lenguaje Natural. 2017;59: 91-8.
- dc.rights © Sociedad Española para el Procesamiento de Lenguaje Natural
- dc.rights.accessRights info:eu-repo/semantics/openAccess
- dc.subject.keyword Machine translation
- dc.subject.keyword Phrase table expansion
- dc.subject.keyword Bilingual lexicon induction
- dc.subject.keyword Natural language processing
- dc.subject.keyword Traducción automática
- dc.subject.keyword Expansión de vocabulario
- dc.subject.keyword Inducción de léxicos biling ues
- dc.subject.keyword Procesamiento del lenguaje natural
- dc.title Enriching low resource statistical machine translation using induced bilingual lexiconsca
- dc.title.alternative Uso de lexicos bilingües inducidos para el enriquecimiento de un sistema de traducción automática estadística de pocos recursosen
- dc.type info:eu-repo/semantics/article
- dc.type.version info:eu-repo/semantics/publishedVersion