Martínez Alonso, HéctorUniversitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge2012-07-112012-07-112009-12-15http://hdl.handle.net/10230/5342A medida que el tamaño de un corpus aumenta, aumenta también el número de concordancias obtenidas al consultar una forma. Un número muy elevado de concordancias, de cientos o de miles, dificulta la sistematicidad de la tarea del lexicógrafo. La propuesta del artículo consiste en el uso de un sistema automático de agrupación de concordancias según su similitud léxica (es decir, qué elementos léxicos comparten), con el objetivo de presentar dichas concordancias agrupadas y asociadas a un único representante de todo el conjunto de las que son consideradas como léxicamente similares, de manera que la cardinalidad efectiva de los datos de corpus se vea reducida. El sistema se ha desarrollado teniendo en cuenta las ventajas de una arquitectura distribuida, por lo que cada una de las partes del sistema (stemming, identificación de stop words, cálculo de similitud entre concordancias, ordenación final de los datos, etc.) se ha desarrollado en módulos diferentes que pueden estar alojados en servidores, ya que las necesidades de cálculo del sistema harían que su uso desde un ordenador personal resultara muy lento.70 p.516002 bytesapplication/pdfapplication/pdfspaLexicografia -- Processament de dadesCorpus (Lingüística)Lingüística computacionalLingüística contrastivaLexicologia -- Processament de dadesAgrupación de resultados de una consulta de corpus según medidas de similitud léxicainfo:eu-repo/semantics/report