Descripción y evaluación de un sistema de extracción de definiciones para el catalán
Mostra el registre complet Registre parcial de l'ítem
- dc.contributor.author Saggion, Horacioca
- dc.contributor.author Espinosa-Anke, Luisca
- dc.date.accessioned 2016-05-12T11:42:21Z
- dc.date.available 2016-05-12T11:42:21Z
- dc.date.issued 2014ca
- dc.description.abstract La extracción automática de defniciones (ED) es una tarea que consiste/nen identifcar defniciones en texto. Este artículo presenta un método para la identi-/nficación de definiciones para el catalán en el dominio enciclopédico, tomando como/ncorpora para entrenamiento y evaluación una colección de documentos de la Wikipedia/nen catalán (Viquipèdia). El corpus de evaluación ha sido validado manualmente./nEl sistema consiste en un algoritmo de clasificación supervisado basado en Conditional/nRandom Fields. Además de los habituales rasgos lingüísticos, se introducen/nrasgos que explotan la frecuencia de palabras en dominios generales y específicos,/nen definiciones y oraciones no definitorias, y en posición de definiendum (el término/nque se define) y de dfiniens (el clúster de palabras que define el definiendum). Los/nresultados obtenidos son prometedores, y sugieren que la combinación de rasgos/nlingüísticos y estadísticos juegan un papel importante en el desarrollo de sistemas/nED para lenguas minoritarias.es
- dc.description.abstract Automatic De nition Extraction (DE) consists of identifying de nitions in naturally-occurring text. This paper presents a method for the identi cation of de nitions in Catalan in the encyclopedic domain. The train and test corpora come from the Catalan Wikipedia (Viquipèedia). The test set has been manually validated. We approach the task as a supervised classification problem, using the Conditional Random Fields algorithm. In addition to the common linguistic features, we introduce features that exploit the frequency of a word in general and specific domains, in definitional and non-definitional sentences, and in definiendum (term to be defined) and definiens (cluster of words that defines the definiendum) position. We obtain promising results that suggest that combining linguistic and statistical features canprove useful for developing DE systems for under-resourced languages.en
- dc.description.sponsorship Este trabajo ha sido parcialmente financiado por el proyecto número TIN2012-38584-C06-03 del Ministerio/nde Economía y Competitividad, Secretaría de Estado de Investigación, Desarrollo e Innovación, España.
- dc.format.mimetype application/pdfca
- dc.identifier.citation Espinosa-Anke L, Saggion H. Descripción y evaluación de un sistema de extracción de definiciones para el catalán. Procesamiento del Lenguaje Natural. 2014;53:69-76.ca
- dc.identifier.issn 1135-5948ca
- dc.identifier.uri http://hdl.handle.net/10230/26277
- dc.language.iso spaca
- dc.publisher Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)ca
- dc.relation.ispartof Procesamiento del Lenguaje Natural. 2014;53:69-76.
- dc.relation.projectID info:eu-repo/grantAgreement/ES/3PN/TIN2012-38584-C06-03
- dc.rights © Sociedad Española para el Procesamiento de Lenguaje Naturalca
- dc.rights.accessRights info:eu-repo/semantics/openAccessca
- dc.subject.keyword Extracción de definicioneses
- dc.subject.keyword Extracción de informaciónes
- dc.subject.keyword Lexicografía computacionales
- dc.subject.keyword Conditional random fieldsen
- dc.subject.keyword Wikipediaen
- dc.title Descripción y evaluación de un sistema de extracción de definiciones para el catalánca
- dc.type info:eu-repo/semantics/articleca
- dc.type.version info:eu-repo/semantics/publishedVersionca