Welcome to the UPF Digital Repository

Implementació d'un model híbrid per al reconeixement d'entitats nomenades en llengua catalana

Show simple item record

dc.contributor.author Jacas Mateu, Albert
dc.date.accessioned 2024-10-24T14:33:32Z
dc.date.available 2024-10-24T14:33:32Z
dc.date.issued 2024
dc.identifier.uri http://hdl.handle.net/10230/68341
dc.description Tutor: Ángel Souto Cabaleiro
dc.description Treball de fi de grau en Traducció i Interpretació
dc.description.abstract En l’era digital actual, el processament del llenguatge natural (PLN) s’enfronta al repte de processar un volum i diversitat de textos sense precedents, circumstància que planteja obstacles significatius per a l’extracció i l’organització de la informació. El reconeixement d’entitats nomenades (REN) és crucial en aquest context, ja que identifica i classifica automàticament noms propis, ubicacions, dates, quantitats i altres expressions específiques. En aquest treball de fi de grau es desenvolupa un model de reconeixement d’entitats nomenades per a la llengua catalana mitjançant l’ampliació de les capacitats dels models existents, que sovint són limitats per a aquest idioma. La metodologia combina tècniques d’aprenentatge automàtic i regles per crear un model híbrid capaç de detectar entitats de nom propi (ENAMEX), expressions temporals (TIMEX) i expressions num`eriques (NUMEX). L’avaluació del model amb el corpus AnCora, el qual s’ha anotat manualment, revela una mesura F del 82,03%, fet que destaca la viabilitat i efectivitat del sistema. Finalment, es presenta una aplicació pràctica del model desenvolupat mitjançant la creació de glossaris ad hoc per a eines de traducció assistida per ordinador (TAO).
dc.description.abstract En la era digital actual, el procesamiento del lenguaje natural (PLN) se enfrenta al reto de procesar un volumen y diversidad de textos sin precedentes, circunstancia que plantea obstáculos significativos para la extracción y organización de la información. El reconocimiento de entidades nombradas (REN) es crucial en este contexto, ya que identifica y clasifica automáticamente nombres propios, ubicaciones, fechas, cantidades y otras expresiones específicas. En este trabajo de fin de grado se desarrolla un modelo de reconocimiento de entidades nombradas para la lengua catalana mediante la ampliación de las capacidades de los modelos existentes, que a menudo son limitados para este idioma. La metodología combina técnicas de aprendizaje automático y reglas para crear un modelo híbrido capaz de detectar entidades de nombre propio (ENAMEX), expresiones temporales (TIMEX) y expresiones numéricas (NUMEX). La evaluación del modelo con el corpus AnCora, que se ha anotado manualmente, revela una medida F del 82,03%, lo que destaca la viabilidad y efectividad del sistema. Por último, se presenta una aplicación práctica del modelo desarrollado mediante la creación de glosarios ad hoc para herramientas de traducción asistida por ordenador (TAO)..
dc.description.abstract In today’s digital age, natural language processing (NLP) faces the challenge of processing unprecedented volumes and diversity of texts, which poses significant difficulties for information extraction and organization. Named entity recognition (NER) is crucial in this context, as it involves identifying and classifying specific text segments automatically, such as proper names, locations, dates, and quantities. This dissertation aims to develop a named entity recognition model for the Catalan language by enhancing the capabilities of existing models, which are often limited for this language. The methodology combines machine learning techniques and rule-based approaches to create a hybrid model capable of detecting named entities (ENAMEX), temporal expressions (TIMEX), and numerical expressions (NUMEX). The model’s evaluation, using the manually annotated AnCora corpus, demonstrates an F-measure of 82.03%, underscoring its viability and effectiveness. Furthermore, a practical application of the developed NER model is presented through the creation of ad hoc termbases for computer-assisted translation (CAT) tools.
dc.format.mimetype application/pdf
dc.language.iso cat
dc.rights Llicència CC Reconeixement-CompartirIgual 4.0 Internacional (CC BY-SA 4.0)
dc.rights.uri https://creativecommons.org/licenses/by-sa/4.0/
dc.subject.other Tractament del llenguatge natural (Informàtica)
dc.title Implementació d'un model híbrid per al reconeixement d'entitats nomenades en llengua catalana
dc.type info:eu-repo/semantics/bachelorThesis
dc.rights.accessRights info:eu-repo/semantics/openAccess

Thumbnail
Icon

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

In collaboration with Compliant to Partaking