Welcome to the UPF Digital Repository

El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español

Show simple item record

dc.contributor.author Stefanova Spassova, Maria
dc.contributor.other Turell, M. Teresa (Maria Teresa)
dc.contributor.other Universitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada
dc.date.accessioned 2024-03-16T02:33:17Z
dc.date.available 2024-03-16T02:33:17Z
dc.date.issued 2011-04-12T16:35:38Z
dc.date.issued 2010-01-13
dc.date.issued 2009-12-04
dc.date.issued 2010-01-13
dc.identifier 9788469302781
dc.identifier http://www.tdx.cat/TDX-0113110-135809
dc.identifier http://hdl.handle.net/10803/7512
dc.identifier B.4508-2010
dc.identifier.uri http://hdl.handle.net/10230/12285
dc.description.abstract The main objective of this dissertation is to evaluate the discriminatory capacity of n-grams - i.e. combinations of sequences of parts of speech- as potential markers of authorship for the purposes of the forensic comparison of Spanish written texts. The focus is on two particular types of n-grams, namely bigrams and trigrams.<br/>The principle hypotheses of the present dissertation are, on the one hand, that n-grams have a high potential to discriminate between the written productions of different authors (inter author variation). On the other hand, it is also hypothesized that the frequency of n-grams does not vary significantly between different writings of the same author over a period of time (intra author variation).<br/>The evaluation of the discriminatory capacity of n-grams was carried out in two different corpora: a) a general corpus of the Spanish language; and b) a corpus of real forensic cases. <br/>Results indicate that both types of n-grams have a high discriminatory potential when applied to both corpora. Moreover, it is demonstrated that the frequency of n-grams does not vary significantly between texts produced by the same author within a time-span of less than 20 years.
dc.description.abstract El objetivo principal de esta tesis es evaluar el potencial discriminatorio de los n-gramas - esto es, combinaciones de secuencias de categorías gramaticales- como posibles marcas de autoría para los fines de la comparación forense de textos escritos en español. La tesis se centra en dos tipos específicos de n-gramas: los bigramas y los trigramas.<br/>Las principales hipótesis de la tesis son, por un lado, que los n-gramas poseen un potencial discriminatorio alto en el análisis de producciones escritas por diferentes autores (variación inter autor). Por otro lado, que la frecuencia de los n-gramas no varía de forma significativa entre las producciones escritas del mismo individuo en el transcurso del tiempo (variación intra autor).<br/>La evaluación del potencial discriminatorio de los n-gramas se ha llevado a cabo en dos corpus diferentes: a) un corpus general de la lengua española; y b) un corpus de casos forenses reales.<br/>Los resultados han indicado que los dos tipos de n-gramas tienen un potencial discriminatorio alto cuando se aplican a los dos corpus. Además, se ha demostrado que la frecuencia de los n-gramas no varía significativamente entre textos escritos producidos por el mismo autor en un intervalo temporal inferior a 20 años.
dc.description.abstract Programa de doctorat en Traducció i Ciències del Llenguatge
dc.format application/pdf
dc.format application/pdf
dc.language.iso spa
dc.publisher Universitat Pompeu Fabra
dc.rights ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.rights info:eu-repo/semantics/openAccess
dc.source TDX (Tesis Doctorals en Xarxa)
dc.title El potencial discriminatorio de las secuencias de categorías gramaticales en la atribución forense de autoría de textos en español
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.date.modified 2024-03-15T10:58:08Z
dc.subject.keyword similitud estilística
dc.subject.keyword estilo
dc.subject.keyword prueba forense
dc.subject.keyword prueba lingüística
dc.subject.keyword prueba
dc.subject.keyword corpus
dc.subject.keyword corpus forense
dc.subject.keyword unicidad lingüística
dc.subject.keyword idiolecto
dc.subject.keyword lenguage individual
dc.subject.keyword idiosincrasia estílistica
dc.subject.keyword idiosincrasia lingüística
dc.subject.keyword estudio forense
dc.subject.keyword estudio de atribución
dc.subject.keyword lengua española
dc.subject.keyword textos en español
dc.subject.keyword variedad lingüística
dc.subject.keyword inter autor
dc.subject.keyword intra autor
dc.subject.keyword variación inter autor
dc.subject.keyword variación intra autor
dc.subject.keyword variación lingüística
dc.subject.keyword variación
dc.subject.keyword clasificación
dc.subject.keyword capacidad discriminante
dc.subject.keyword potencial discriminatorio
dc.subject.keyword texto forense
dc.subject.keyword texto indubitado
dc.subject.keyword texto escrito
dc.subject.keyword texto debitado
dc.subject.keyword análisis de varianza
dc.subject.keyword análisis discriminante
dc.subject.keyword e textos escritos
dc.subject.keyword análisis
dc.subject.keyword análisis estadístico con fines forenses
dc.subject.keyword análisis estadístico
dc.subject.keyword comparación de textos escritos
dc.subject.keyword comparación lingüística forense
dc.subject.keyword análisis lingüístico forense
dc.subject.keyword determinación de autoría
dc.subject.keyword atribución forense de autoría
dc.subject.keyword atribución
dc.subject.keyword determinación
dc.subject.keyword forense
dc.subject.keyword identificación
dc.subject.keyword autoría
dc.subject.keyword marca identificativa
dc.subject.keyword marca de autoría
dc.subject.keyword marca
dc.subject.keyword género textual
dc.subject.keyword español
dc.subject.keyword lingüística
dc.subject.keyword lingüística forense
dc.subject.keyword etiqueta
dc.subject.keyword etiquetas morfosintácticas
dc.subject.keyword anotación morfosintàctica
dc.subject.keyword anotación
dc.subject.keyword cateogría
dc.subject.keyword categoría gramatical
dc.subject.keyword secuencia de categoría gramaticales
dc.subject.keyword combinación de etiquetas
dc.subject.keyword trigrama
dc.subject.keyword bigrama
dc.subject.keyword n-grama
dc.subject.keyword perfil lingüístico
dc.subject.keyword técnica de atribución
dc.subject.keyword técnica de análisis
dc.subject.keyword técnica de comparación
dc.subject.keyword lingüística forense
dc.subject.keyword rasgo idiosincrásico
dc.subject.keyword lingüística aplicada
dc.subject.keyword 81


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

In collaboration with Compliant to Partaking