Saggion, HoracioEspinosa-Anke, Luis2016-05-122016-05-122014Espinosa-Anke L, Saggion H. Descripción y evaluación de un sistema de extracción de definiciones para el catalán. Procesamiento del Lenguaje Natural. 2014;53:69-76.1135-5948http://hdl.handle.net/10230/26277La extracción automática de defniciones (ED) es una tarea que consiste/nen identifcar defniciones en texto. Este artículo presenta un método para la identi-/nficación de definiciones para el catalán en el dominio enciclopédico, tomando como/ncorpora para entrenamiento y evaluación una colección de documentos de la Wikipedia/nen catalán (Viquipèdia). El corpus de evaluación ha sido validado manualmente./nEl sistema consiste en un algoritmo de clasificación supervisado basado en Conditional/nRandom Fields. Además de los habituales rasgos lingüísticos, se introducen/nrasgos que explotan la frecuencia de palabras en dominios generales y específicos,/nen definiciones y oraciones no definitorias, y en posición de definiendum (el término/nque se define) y de dfiniens (el clúster de palabras que define el definiendum). Los/nresultados obtenidos son prometedores, y sugieren que la combinación de rasgos/nlingüísticos y estadísticos juegan un papel importante en el desarrollo de sistemas/nED para lenguas minoritarias.Automatic De nition Extraction (DE) consists of identifying de nitions in naturally-occurring text. This paper presents a method for the identi cation of de nitions in Catalan in the encyclopedic domain. The train and test corpora come from the Catalan Wikipedia (Viquipèedia). The test set has been manually validated. We approach the task as a supervised classification problem, using the Conditional Random Fields algorithm. In addition to the common linguistic features, we introduce features that exploit the frequency of a word in general and specific domains, in definitional and non-definitional sentences, and in definiendum (term to be defined) and definiens (cluster of words that defines the definiendum) position. We obtain promising results that suggest that combining linguistic and statistical features canprove useful for developing DE systems for under-resourced languages.application/pdfspa© Sociedad Española para el Procesamiento de Lenguaje NaturalDescripción y evaluación de un sistema de extracción de definiciones para el cataláninfo:eu-repo/semantics/articleExtracción de definicionesExtracción de informaciónLexicografía computacionalConditional random fieldsWikipediainfo:eu-repo/semantics/openAccess