Almena Rodríguez, Mireia2025-07-232025-07-232025http://hdl.handle.net/10230/70986Tutor: Thomas Brochhagen Treball de fi de grau en Llengües AplicadesEn aquest estudi s’han analitzat quatre models de llenguatge extensos (LLMs) amb l’objectiu d’avaluar-ne la qualitat lingüística en català i observar la possible interferència del castellà. S’ha comparat un model monolingüe en català (Catalan BERTa-v2) amb tres models multilingües (X-MOD, TwHIN-BERT i XLM-V). A través d’un programa dissenyat en Python, s’ha comprovat que el model monolingüe és el que mostra una major adequació a la normativa del català, tot i que també reflecteix usos no normatius freqüents entre els parlants, cosa que també indica un ús descriptiu de la llengua. Paral·lelament, s’han utilitzat oracions procedents del projecte CONTACT, centrat en el català d’herència en contextos bilingües, per analitzar si els models són capaços de detectar patrons de contacte lingüístic. Els resultats mostren una certa capacitat per identificar estructures gramaticals en contextos anafòrics, però no s’han detectat patrons consistents en el marcatge diferencial d’objecte ni en l’alternança entre els verbs ser i estar. En resum, l’estudi evidencia que els LLMs generen tant estructures normatives com no normatives, fet que obre el debat sobre el seu paper en la preservació i normalització del català, així com sobre la necessitat de regular-ne el desenvolupament per garantir un ús lingüísticament adequat.En este estudio se han analizado cuatro modelos de lenguaje extensos (LLMs) con el objetivo de evaluar su calidad lingüística en catalán y observar la posible interferencia del español. Se ha comparado un modelo monolingüe en catalán (Catalan BERTa-vs) con tres modelos multilingües (X-MOD, TwHIN-BERT y XLM-V). A través de un programa diseñado en Python, se ha comprobado que el modelo monolingüe es el que muestra una mayor adecuación a la normativa del catalán, aunque también refleja usos no normativos frecuentes entre los hablantes, lo cual también indica un uso descriptivo de la lengua. Paralelamente, se han utilizado oraciones procedentes del proyecto CONTACT, centrado en el catalán de herencia en contextos bilingües, para analizar si los modelos son capaces de detectar patrones de contacto lingüístico. Los resultados muestran una cierta capacidad para identificar estructuras gramaticales en contextos anafóricos, pero no se han detectado v patrones consistentes en el marcaje diferencial de objeto ni en la alternancia entre los verbos ser y estar. En resumen, el estudio evidencia que los LLMs generan tanto estructuras normativas como no normativas, lo que abre el debate sobre su papel en la preservación y normalización del catalán, así como sobre la necesidad de regular su desarrollo para garantizar un uso lingüísticamente adecuado.This study analyzed four large language models (LLMs) to assess their linguistic quality in Catalan and to examine potential interference from Spanish. It compares one monolingual model (Catalan BERTa-v2) with three multilingual models (X-MOD, TwHIN-BERT and XLM-V). The analysis has been carried out through a Python program, which shows that the monolingual model aligns most closely with the Catalan norm, although it also reflects non-normative expressions used frequently by speakers, also suggesting a descriptive use of the language. Additionally, sentences from the CONTACT project, which focuses on Catalan as a heritage language in bilingual contexts, have been used in order to analyze if the models are capable of detecting linguistic contact patterns. The findings reveal a certain ability to identify grammatical structures in anaphorical contexts, but no consistent patterns were found in the case of differential object marking or the use of verbs ser and estar. Overall, the study demonstrates that LLMs generate both normative and non-normative structures, which raises important questions about their role in the preservation and normalization of Catalan, as well as the need to regulate their development to ensure an adequate linguistic use.catLlicència CC Reconeixement-NoComercial-SenseObraDerivada 4.0 Internacional (CC BY-NC-ND 4.0)Tractament del llenguatge natural (Informàtica)Norma, ús i interferència: biaixos lingüístics en els models de llenguatge en catalàinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccess