Detecció del llenguatge sexista amb models de llenguatge avançats
Detecció del llenguatge sexista amb models de llenguatge avançats
Enllaç permanent
Descripció
Resum
L'ús excessiu i inadequat de les xarxes socials pot propiciar a la propagació d'actituds sexistes i discriminatòries, afectant diversos col·lectius vulnerables. És important reconèixer que aquestes plataformes contenen contingut sexista, podent comportar a situacions socials greus com la violència de gènere, discriminació laboral, objectificació i assetjament. L'objectiu principal d'aquest treball és investigar i desenvolupar programes capaços de detectar textos sexistes en tres idiomes: anglès, castellà i turc, categoritzant-los segons la seva tipologia: ideologia i desigualtat, estereotips i domini, misogínia i violència no-sexual, objectificació i violència sexual. Per dur a terme aquest projecte, s'utilitzen diversos models de classificació simples i models de processament de llenguatge natural a gran escala, els quals detecten característiques clau i analitzen el context semàntic per classificar els textos sexistes. S'utilitzen tant models d'aprenentatge automàtic, com models monolingües i multilingües prèviament entrenats, amb l'objectiu de fer un anàlisis exhaustiu i comparatiu en diferents llengües.
El uso excesivo e inadecuado de las redes sociales puede propiciar la propagación de actitudes sexistas y discriminatorias, afectando a varios colectivos vulnerables. Es importante reconocer que estas plataformas contienen contenido sexista, pudiendo comportar situaciones sociales graves como la violencia de género, discriminación laboral, objetificación y acoso. El objetivo principal de este trabajo es investigar y desarrollar programas capaces de detectar textos sexistas en tres idiomas: inglés, español y turco, categorizándolos según su tipología: ideología y desigualdad, estereotipos y dominio, misoginia y violencia no-sexual, objetificación y violencia sexual. Para llevar a cabo este proyecto, se utilizan diferentes modelos de clasificación simples y modelos de procesamiento de lenguaje natural a gran escala, que detectan características clave y analizan el contexto semántico para clasificar los textos sexistas. Se utilizan tanto modelos de aprendizaje automático, como modelos monolingües y multilingües previamente entrenados, con el objetivo de realizar un análisis exhaustivo y comparativo en diferentes lenguas.
Excessive and inappropriate use of social media can lead to the spread of sexist and discriminatory attitudes, affecting various vulnerable groups. It is important to recognise that these platforms contain sexist content, which can lead to serious social situations such as gender violence, labour discrimination, objectification and harassment. The main objective of this work is to research and develop software able to detect sexist texts in three languages: English, Spanish and Turkish, categorising them according to their typology: ideology and inequality, stereotypes and dominance, misogyny and non-sexual violence, objectification and sexual violence. To carry out this project, several simple classification models and large-scale natural language processing models are used, which detect key features and analyze the semantic context to classify sexist texts. Both machine learning models and pre-trained monolingual and multilingual models are used in order to perform a comprehensive and comparative analysis in different languages.Descripció
Tutor: Horacio Saggion
Treball de fi de grau en Enginyeria Matemàtica en Ciència de Dades