Re-thinking large scale hate speech identification: beyond common NLP conventions and supervised machine learning
Mostra el registre complet Registre parcial de l'ítem
- dc.contributor.author Teixeira Fortuna, Paula Cristina
- dc.contributor.other Wanner, Leo
- dc.contributor.other Soler Company, Juan
- dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
- dc.date.accessioned 2024-03-16T02:33:35Z
- dc.date.available 2024-03-16T02:33:35Z
- dc.date.issued 2023-04-26T12:09:35Z
- dc.date.issued 2023-04-26T12:09:35Z
- dc.date.issued 2023-03-06
- dc.date.modified 2024-03-15T10:58:03Z
- dc.description.abstract The detection of hate speech in online spaces is traditionally conceptualized as a classification task that uses Machine Learning (ML)-driven Natural Language Processing (NLP) techniques. In accordance with this conceptualization, the hate speech detection task relies upon common conventions and practices in Artificial Intelligence, ML and NLP – among them interpretation of the inter-annotator agreement as a way to measure dataset quality and the use of standard metrics such as precision, recall or accuracy and benchmarks to assess model performance. However, hate speech is a highly subjective and context-dependent notion that eludes such static and disembodied practices. Their application results in definitorial challenges and the failure of the models to generalize across different datasets, two problems that I analyse in empirical studies. Furthermore, I critically reflect on the followed methodologies. I argue that many conventions in NLP are poorly suited for the problem and suggest to develop methods that are more appropriate for fighting online hate speech.
- dc.description.abstract Abordar el discurs de l’odi als espais en línia s’ha conceptualitzat comuna tasca de classificació que utilitza t`ecniques d’intelligència artificial (IA), aprenentatge automàtic (ML) o processament del llenguatge natural (PNL). Mitjançant aquesta conceptualització, la tasca de detecció del discurs d’odi s’ha basat en les convencions i pr`actiques comunes d’aquests camps. Per exemple, l’acord entre anotadors es conceptualitza com una manera de mesurar la qualitat del conjunt de dades i s’utilitzen determinades m`etriques i punts de referència per inferir el rendiment del model. Tanmateix, el discurs de l’odi és un concepte profundament complex i situat que eludeix aquestes pràctiques estàtiques i incorpònies. En aquesta tesi aprofundeixo en els reptes de definici ó i les dificultatKeywordss pel que fa a la generalització de models, dos problemes que analitzo amb estudis empírics. A més, reflexiono críticament sobre les metodologies seguides, argumento que moltes convencions en PNL són poc adequades per al problema i animo els investigadors a desenvolupar mètodes més adequats per combatre el discurs d’odi en línia.
- dc.description.abstract Programa de doctorat en Tecnologies de la Informació i les Comunicacions
- dc.format 127 p.
- dc.format application/pdf
- dc.identifier http://hdl.handle.net/10803/688156
- dc.identifier.uri http://hdl.handle.net/10230/56579
- dc.language.iso eng
- dc.publisher Universitat Pompeu Fabra
- dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
- dc.rights http://creativecommons.org/licenses/by-nc-nd/4.0/
- dc.rights info:eu-repo/semantics/openAccess
- dc.source TDX (Tesis Doctorals en Xarxa)
- dc.subject.keyword Hate speech detection
- dc.subject.keyword Machine learning conventions
- dc.subject.keyword Algorithmic challenges
- dc.subject.keyword Deteccio de discurs d’odi
- dc.subject.keyword Convencions d’aprenentatge automàtic
- dc.subject.keyword Reptes algorítmics
- dc.subject.keyword 62
- dc.title Re-thinking large scale hate speech identification: beyond common NLP conventions and supervised machine learning
- dc.type info:eu-repo/semantics/doctoralThesis
- dc.type info:eu-repo/semantics/publishedVersion