Implementació d'un model híbrid per al reconeixement d'entitats nomenades en llengua catalana

Jacas Mateu, Albert

Implementació d'un model híbrid per al reconeixement d'entitats nomenades en llengua catalana

Enllaç permanent

http://hdl.handle.net/10230/68341

Descripció

Resum
En l’era digital actual, el processament del llenguatge natural (PLN) s’enfronta al repte de processar un volum i diversitat de textos sense precedents, circumstància que planteja obstacles significatius per a l’extracció i l’organització de la informació. El reconeixement d’entitats nomenades (REN) és crucial en aquest context, ja que identifica i classifica automàticament noms propis, ubicacions, dates, quantitats i altres expressions específiques. En aquest treball de fi de grau es desenvolupa un model de reconeixement d’entitats nomenades per a la llengua catalana mitjançant l’ampliació de les capacitats dels models existents, que sovint són limitats per a aquest idioma. La metodologia combina tècniques d’aprenentatge automàtic i regles per crear un model híbrid capaç de detectar entitats de nom propi (ENAMEX), expressions temporals (TIMEX) i expressions num`eriques (NUMEX). L’avaluació del model amb el corpus AnCora, el qual s’ha anotat manualment, revela una mesura F del 82,03%, fet que destaca la viabilitat i efectivitat del sistema. Finalment, es presenta una aplicació pràctica del model desenvolupat mitjançant la creació de glossaris ad hoc per a eines de traducció assistida per ordinador (TAO).
En la era digital actual, el procesamiento del lenguaje natural (PLN) se enfrenta al reto de procesar un volumen y diversidad de textos sin precedentes, circunstancia que plantea obstáculos significativos para la extracción y organización de la información. El reconocimiento de entidades nombradas (REN) es crucial en este contexto, ya que identifica y clasifica automáticamente nombres propios, ubicaciones, fechas, cantidades y otras expresiones específicas. En este trabajo de fin de grado se desarrolla un modelo de reconocimiento de entidades nombradas para la lengua catalana mediante la ampliación de las capacidades de los modelos existentes, que a menudo son limitados para este idioma. La metodología combina técnicas de aprendizaje automático y reglas para crear un modelo híbrido capaz de detectar entidades de nombre propio (ENAMEX), expresiones temporales (TIMEX) y expresiones numéricas (NUMEX). La evaluación del modelo con el corpus AnCora, que se ha anotado manualmente, revela una medida F del 82,03%, lo que destaca la viabilidad y efectividad del sistema. Por último, se presenta una aplicación práctica del modelo desarrollado mediante la creación de glosarios ad hoc para herramientas de traducción asistida por ordenador (TAO)..
In today’s digital age, natural language processing (NLP) faces the challenge of processing unprecedented volumes and diversity of texts, which poses significant difficulties for information extraction and organization. Named entity recognition (NER) is crucial in this context, as it involves identifying and classifying specific text segments automatically, such as proper names, locations, dates, and quantities. This dissertation aims to develop a named entity recognition model for the Catalan language by enhancing the capabilities of existing models, which are often limited for this language. The methodology combines machine learning techniques and rule-based approaches to create a hybrid model capable of detecting named entities (ENAMEX), temporal expressions (TIMEX), and numerical expressions (NUMEX). The model’s evaluation, using the manually annotated AnCora corpus, demonstrates an F-measure of 82.03%, underscoring its viability and effectiveness. Furthermore, a practical application of the developed NER model is presented through the creation of ad hoc termbases for computer-assisted translation (CAT) tools.
Descripció
Tutor: Ángel Souto Cabaleiro
Treball de fi de grau en Traducció i Interpretació
Col·leccions
Grau en Traducció i Interpretació. Treballs de fi de grau

Mostra el registre complet

Implementació d'un model híbrid per al reconeixement d'entitats nomenades en llengua catalana

Implementació d'un model híbrid per al reconeixement d'entitats nomenades en llengua catalana

Fitxers

Data

Autories

Resum

Descripció

Col·leccions