Stefanova Spassova, Maria. El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español. 2009
http://hdl.handle.net/10230/12285
|
Title:
|
El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español |
|
Author:
|
Stefanova Spassova, Maria
|
|
Advisor & department:
|
Turell, M. Teresa (Maria Teresa), 1949-; Universitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada
|
|
Abstract:
|
The main objective of this dissertation is to evaluate the discriminatory capacity of n-grams - i.e. combinations of sequences of parts of speech- as potential markers of authorship for the purposes of the forensic comparison of Spanish written texts. The focus is on two particular types of n-grams, namely bigrams and trigrams.The principle hypotheses of the present dissertation are, on the one hand, that n-grams have a high potential to discriminate between the written productions of different authors (inter author variation). On the other hand, it is also hypothesized that the frequency of n-grams does not vary significantly between different writings of the same author over a period of time (intra author variation).The evaluation of the discriminatory capacity of n-grams was carried out in two different corpora: a) a general corpus of the Spanish language; and b) a corpus of real forensic cases. Results indicate that both types of n-grams have a high discriminatory potential when applied to both corpora. Moreover, it is demonstrated that the frequency of n-grams does not vary significantly between texts produced by the same author within a time-span of less than 20 years.
El objetivo principal de esta tesis es evaluar el potencial discriminatorio de los n-gramas - esto es, combinaciones de secuencias de categorías gramaticales- como posibles marcas de autoría para los fines de la comparación forense de textos escritos en español. La tesis se centra en dos tipos específicos de n-gramas: los bigramas y los trigramas.Las principales hipótesis de la tesis son, por un lado, que los n-gramas poseen un potencial discriminatorio alto en el análisis de producciones escritas por diferentes autores (variación inter autor). Por otro lado, que la frecuencia de los n-gramas no varía de forma significativa entre las producciones escritas del mismo individuo en el transcurso del tiempo (variación intra autor).La evaluación del potencial discriminatorio de los n-gramas se ha llevado a cabo en dos corpus diferentes: a) un corpus general de la lengua española; y b) un corpus de casos forenses reales.Los resultados han indicado que los dos tipos de n-gramas tienen un potencial discriminatorio alto cuando se aplican a los dos corpus. Además, se ha demostrado que la frecuencia de los n-gramas no varía significativamente entre textos escritos producidos por el mismo autor en un intervalo temporal inferior a 20 años.
|
|
Date:
|
2009 |
|
Rights:
|
ADVERTIMENT. La consulta d'aquesta tesi queda condicionada a l'acceptació de les següents condicions d'ús. La difusió d'aquesta tesi per mitjà del servei TDX ha estat autoritzada pels titulars dels drets de propietat intel·lectual únicament per a usos privats emmarcats en activitats d'investigació i docència. No s'autoritza la seva reproducció amb finalitats de lucre ni la seva difusió i posada a disposició des d'un lloc aliè al servei TDX. No s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant al resum de presentació de la tesi com als seus continguts. En la utilització o cita de parts de la tesi és obligat indicar el nom de la persona autora.
info:eu-repo/semantics/openAccess |
Show full document record