Show simple item record

dc.contributor.author Nazar, Rogelio
dc.contributor.other Wanner, Leo
dc.contributor.other Vivaldi, J. (Jorge), 1952-
dc.contributor.other Universitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada
dc.date.accessioned 2017-09-24T01:43:20Z
dc.date.available 2017-09-24T01:43:20Z
dc.date.issued 2010-10-01
dc.identifier B.44433-2010
dc.identifier 978-84-694-1269-5
dc.identifier http://www.tdx.cat/TDX-0117111-085812
dc.identifier http://hdl.handle.net/10803/7516
dc.identifier.uri http://hdl.handle.net/10230/12109
dc.description.abstract The present research focuses on the study of the distribution of lexis in corpus and its aim is to inquire into the relations that exist between concepts through the occurrences of the terms that designate them. The initial hypothesis is that it is possible to analyze concepts by studying the contexts of occurrence of the terms. More precisely, taking into account the statistics of term co-occurrence in context windows of n words. The thesis presents a computational model in the form of graphs of term co-occurrence in which each node represents single or multiword terms. Given a query term, a graph for that term is derived from a given corpus. As texts are analyzed, every time that two terms appear together in the same context window, the nodes that represent each of these terms are connected by an arc or, in case they already had one, their connection is strengthened. This graph is presented as a model of learning, and as such it is evaluated with experiments in which a computer program solves tasks that involve some degree of concept analysis. Within the scope of concept analysis, one of those tasks is to tell whether a word or a sequence of words in a given text is referring to a specific concept and to derive some of the basic properties of that concept, such as its taxonomic relations. Some other tasks can be to determine when the same word is referring to more than one concept (cases of homonymy or polysemy) as well as to determine when different words are referring to the same concept (cases of synonymy or equivalence between languages or dialectical variations). As a linguistic interpretation of these phenomena, this thesis derives a generalization in the realm of discourse analysis: the properties of the co-occurrence graphs are possible because authors of argumentative texts have a tendency to name some of the basic properties of the concepts that they introduce in discourse. This happens mainly at the beginning of texts, in order to ensure that principles among reader and writer are shared. Each author will predicate different information about a given concept, but the authors that treat the same topic will tend to depart from a common base and this coincidence will be expressed in the selection of the vocabulary. This coincidence in the selection of the<br/>vocabulary, because of its cumulative effect, can be studied with statistical means. <br/><br/>El presente trabajo se centra en el estudio de la distribución del léxico en corpus y su<br/>cometido es el análisis de las relaciones existentes entre los conceptos a través de los<br/>términos que estos designan. La hipótesis de partida es que podemos analizar conceptos estudiando los contextos de aparición de los términos que los designan, utilizando para ello las estadísticas de coocurrencia de los términos en ventanas de contexto de n palabras. La tesis presenta un modelo computacional en forma de grafos de coocurrencia de términos donde los nodos representan términos simples o sintagmáticos. Dado un término analizado, se deriva un grafo para ese término a partir de un corpus. A medida que los textos se analizan, cada vez que dos términos aparecen juntos en una misma ventana de contexto, los nodos que los representan se conectan entre sí mediante un arco o bien fortalecen su conexión si ya la tenían. Este grafo es presentado como un modelo de aprendizaje, y como tal es evaluado mediante experimentos en que un ordenador resuelve tareas propias del análisis conceptual. Estas tareas incluyen determinar cuándo una palabra o secuencia de palabras dentro de un texto hace referencia a un concepto definido, así como determinar algunas de las propiedades más importantes de este concepto, tal como sus relaciones taxonómicas. Otras tareas son las de determinar cuándo una misma palabra puede hacer referencia a más de un concepto (casos de homonimia o polisemia) o determinar cuándo distintas palabras hacen referencia a un mismo concepto (casos de sinonimia o equivalencia entre lenguas o variedades dialectales). Como una interpretación lingüística de estos fenómenos, esta tesis extrae una generalización en el plano del anàlisis del discurso: las propiedades de los grafos de coocurrencia léxica surgen gracias a la tendencia que tienen los autores de textos argumentativos de mencionar algunas de las propiedades más importantes de los conceptos que introducen en el discurso. Esto ocurre sobre todo al inicio del discurso, con el objeto de asegurar que los principios entre lector y autor son compartidos. Cada autor predicará distintas informaciones acerca de un determinado concepto, pero los autores que traten sobre un mismo tema tendrán tendencia a partir de una misma base y esta coincidencia se manifestará en la selección del léxico que, por su efecto acumulativo, puede ser estudiada de manera estadística.
dc.format application/pdf
dc.language.iso eng
dc.publisher Universitat Pompeu Fabra
dc.rights ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.rights info:eu-repo/semantics/openAccess
dc.source TDX (Tesis Doctorals en Xarxa)
dc.title A quantitative approach to concept analysis
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.date.modified 2017-09-22T13:23:44Z
dc.subject.keyword extracción de léxico bilingüe
dc.subject.keyword desambiguación de sentidos
dc.subject.keyword extracción de expresiones referenciales
dc.subject.keyword extracción de términos
dc.subject.keyword semántica distribucional
dc.subject.keyword extracción de taxonomías
dc.subject.keyword semántica cuantitativa
dc.subject.keyword analisis conceptual
dc.subject.keyword word-sense disambiguation
dc.subject.keyword extraction
dc.subject.keyword bilingual lexicon
dc.subject.keyword referential expression extraction
dc.subject.keyword terminology extraction
dc.subject.keyword extraction
dc.subject.keyword taxonomy
dc.subject.keyword distributional semantics
dc.subject.keyword concept analysis
dc.subject.keyword quantitative semantics
dc.subject.keyword 81


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compliant to Partaking