Agrupación de resultados de una consulta de corpus según medidas de similitud léxica
Mostra el registre complet Registre parcial de l'ítem
- dc.contributor.author Martínez Alonso, Héctorca
- dc.contributor.other Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatgeca
- dc.date.accessioned 2012-07-11T02:10:23Z
- dc.date.available 2012-07-11T02:10:23Z
- dc.date.issued 2009-12-15T16:34:07Zca
- dc.date.modified 2012-07-10T07:27:36Zca
- dc.description.abstract A medida que el tamaño de un corpus aumenta, aumenta también el número de concordancias obtenidas al consultar una forma. Un número muy elevado de concordancias, de cientos o de miles, dificulta la sistematicidad de la tarea del lexicógrafo. La propuesta del artículo consiste en el uso de un sistema automático de agrupación de concordancias según su similitud léxica (es decir, qué elementos léxicos comparten), con el objetivo de presentar dichas concordancias agrupadas y asociadas a un único representante de todo el conjunto de las que son consideradas como léxicamente similares, de manera que la cardinalidad efectiva de los datos de corpus se vea reducida. El sistema se ha desarrollado teniendo en cuenta las ventajas de una arquitectura distribuida, por lo que cada una de las partes del sistema (stemming, identificación de stop words, cálculo de similitud entre concordancias, ordenación final de los datos, etc.) se ha desarrollado en módulos diferentes que pueden estar alojados en servidores, ya que las necesidades de cálculo del sistema harían que su uso desde un ordenador personal resultara muy lento.ca
- dc.format 70 p.ca
- dc.format 516002 bytesca
- dc.format application/pdfca
- dc.format.mimetype application/pdfca
- dc.identifier http://hdl.handle.net/2072/42914ca
- dc.identifier.uri http://hdl.handle.net/10230/5342
- dc.language.iso spaca
- dc.rights.uri Aquest document està subjecte a una llicència d'ús de Creative Commons, amb la qual es permet copiar, distribuir i comunicar públicament l'obra sempre que se'n citin l'autor original, la universitat i el departament i no se'n faci cap ús comercial ni obra derivada, tal com queda estipulat en la llicència d'ús (http://creativecommons.org/licenses/by-nc-nd/2.5/es/)ca
- dc.subject.other Lexicografia -- Processament de dadesca
- dc.subject.other Corpus (Lingüística)ca
- dc.subject.other Lingüística computacionalca
- dc.subject.other Lingüística contrastivaca
- dc.subject.other Lexicologia -- Processament de dadesca
- dc.title Agrupación de resultados de una consulta de corpus según medidas de similitud léxicaca
- dc.type info:eu-repo/semantics/reportca