Departament de Traducció i Ciències del llenguatge. Dades primàrieshttp://hdl.handle.net/10230/246662024-03-29T14:21:17Z2024-03-29T14:21:17ZCorpus de catecismos, 1809-1939Mellado Blanes, EsterBrumme, Jennyhttp://hdl.handle.net/10230/453252020-09-22T14:27:07Z2020-07-20T00:00:00ZCorpus de catecismos, 1809-1939
Mellado Blanes, Ester; Brumme, Jenny
El corpus reúne siete catecismos históricos en formato .txt, así como los ficheros .xls del análisis efectuado con la aplicación ContaWords. Se añada una hoja indicando las fuentes bibliográficas y los cambios que se han efectuado sobre los textos. El fichero contiene los siguientes catecismos: Catecismo patriótico (1809), Catecismo y esposición breve de la doctrina cristiana (1843) de Gerónimo de Ripalda, Catecismo de la Doctrina Cristiana (1849) de Gaspar Astete, Catecismo patriótico republicano (1888) de Meliton Muñoz y Epelde, Catecismo de la Doctrina Socialista (¿1906?) de Felipe Carretero, Catecismo de los comunistas (1913) de Federico Engels, así como el Catecismo patriótico español (1939), de Menéndez Reigada. Todos los textos se han adaptado a la ortografía actual.
Se añade una hoja con los datos bibliográficos.
2020-07-20T00:00:00ZCatàleg de recursos de llenguatge jurídic català 2000-2018Arnall Duch, Annahttp://hdl.handle.net/10230/422112020-03-03T08:32:29Z2019-10-29T00:00:00ZCatàleg de recursos de llenguatge jurídic català 2000-2018
Arnall Duch, Anna
El Catàleg de recursos de LJC 2000-2018 recull fins a 232 recursos
del llenguatge jurídic català publicats en el període 2000-2018 i ofereix
opcions de cerca dels recursos segons tretze paràmetres diferents (títol,
autor, any de publicació, editor, el sector i la zona geogràfica en què
s’ha publicat, el tipus de mitjà, el tipus de font d’informació, el tipus
de recurs i paraula clau; i en el cas de les fonts terminològiques, segons
si tenen definicions, exemples i un nombre d’entrades superior o inferior a
6.000 termes). Així mateix, proporciona accés directe als recursos en línia
i també conté catorze gràfics que projecten informació d'una forma ben
visible i fàcil d'interpretar sobre el panorama actual de recursos del LJC.
El Catàleg constitueix un dels resultats de la tesi doctoral "Llenguatge
jurídic català: estat de la qüestió i propostes de futur", d'Anna Arnall.
El Catàleg és una eina amb aplicacions al camp de la recerca, la
planificació o normalització lingüístiques, la docència, la traducció
jurídica i al camp professional del dret, i per tant, és útil a
l’investigador que vulgui fer recerca, per exemple, en LJC o lexicografia,
ja que permet segmentar de forma automàtica el panorama documental dels
recursos del LJC; és interessant per a les institucions amb funcions de
planificació o normalització lingüístiques per prendre consciència dels
problemes que hi ha en el panorama documental 2000-2018; també fa servei a
l’àmbit de la docència, especialment, la docència en jurilingüística, però
també en dret, ja que permet treballar competències relacionades amb la
cerca documental i la consulta d’informació lingüística; i finalment, també
és una eina de profit per al traductor o el jurista, o qualsevol persona
interessada en el LJC, perquè els permet trobar els recursos que necessiten
per satisfer les seves necessitats lingüístiques.
Consulta el recurs a: http://parles.upf.edu/llocs/adljc
2019-10-29T00:00:00ZNonatomic distributivity experiment 2017Wohlmuth, Katahttp://hdl.handle.net/10230/358422019-09-03T11:42:59Z2017-01-01T00:00:00ZNonatomic distributivity experiment 2017
Wohlmuth, Kata
User guide in TXT, experiment materials and results in CSV:
- exp1materials.csv: materials used in Experiment 1. Items coded with "c" are the critical items. Items coded with "f" are the fillers. "ff": false fillers, "ft" true fillers.
- exp1results.csv: the results of Experiment 1.
- exp2materials.csv: materials used in Experiment 2. For coding see the description of exp1_materials.csv.
- exp2results.csv: the results of Experiment 2.
2017-01-01T00:00:00ZMultiBooked_Corpora [research data]Barnes, Jeremyhttp://hdl.handle.net/10230/339282018-02-19T10:10:02Z2015-01-01T00:00:00ZMultiBooked_Corpora [research data]
Barnes, Jeremy
We release two corpora of hotel reviews annotated for aspect-level sentiment analysis in Catalan and Basque. We also include scripts which allow the conversion to sentence-level annotations and provide benchmarks for opinion holder, target, and expression extraction based on conditional random fields.
The corpora are compiled from hotel reviews taken mainly from booking.com. The corpora are in Kaf/Naf format [https://github.com/opener-project/kaf/wiki/KAF-structure-overview] [https://github.com/newsreader/NAF], which is an xml-style stand-off format that allows for multiple layers of annotation. Each review was sentence- and word-tokenized and lemmatized using Freeling [http://nlp.lsi.upc.edu/freeling/node/1] for Catalan and ixa-pipes [http://ixa2.si.ehu.es/ixa-pipes/] for Basque. Finally, for each language two annotators annotated opinion holders, opinion targets, and opinion expressions for each review, following the guidelines set out in the OpeNER project [http://www.opener-project.eu/]. Details can be found in the paper.
This package includes the two corpora, as well as providing scripts to obtain corpus statistics (corpus_stats.py), reproduce the benchmarks reported in the paper (crf.py), extract only the opinionated units from the text (extract_opinions.py), or map the aspect-level annotations to sentence- or document-level annotated corpora (extract_sentences.py).
Requirements for stats and extraction: Python 3, NumPy
2015-01-01T00:00:00Z