Welcome to the UPF Digital Repository

Annotation of regular polysemy: an empirical assessment of the underspecified sense

Show simple item record

dc.contributor.author Martínez Alonso, Héctor
dc.contributor.other Sandford Pedersen, Bolette
dc.contributor.other Bel Rafecas, Núria
dc.contributor.other Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge
dc.date.accessioned 2024-03-16T02:33:33Z
dc.date.available 2024-03-16T02:33:33Z
dc.date.issued 2014-06-16T12:13:43Z
dc.date.issued 2014-06-16T12:13:43Z
dc.date.issued 2013-12-19
dc.identifier http://hdl.handle.net/10803/145324
dc.identifier B 15442-2014
dc.identifier.uri http://hdl.handle.net/10230/22575
dc.description.abstract Words that belong to a semantic type, like location, can metonymically behave as a member of another semantic type, like organization. This phenomenon is known as regular polysemy. In Pustejovsky's (1995) Generative Lexicon, some cases of regular polysemy are grouped in a complex semantic class called a dot type. For instance, the sense alternation mentioned above is the location organization dot type. Other dot types are for instance animal meat or container content. We refer to the usages of dot-type words that are potentially both metonymic and literal as underspeci ed. Regular polysemy has received a lot of attention from the theory of lexical semantics and from computational linguistics. However, there is no consensus on how to represent the sense of underspeci ed examples at the token level, namely when annotating or disambiguating senses of dot types. This leads us to the main research question of the dissertation: Does sense underspeci cation justify incorporating a third sense into our sense inventories when dealing with dot types at the token level, thereby treating the underspeci ed sense as independent from the literal and metonymic? We have conducted an analysis in English, Danish and Spanish on the possibility to annotate underspeci ed senses by humans. If humans cannot consistently annotate the underspeci ed sense, its applicability to NLP tasks is to be called into question. Later on, we have tried to replicate the human judgments by means of unsupervised and semisupervised sense prediction. Achieving an NLP method that can reproduce the human judgments for the underspeci ed sense would be suf- cient to postulate the inclusion of the underspeci ed in our sense inventories. The human annotation task has yielded results that indicate that the kind of annotator (volunteer vs. crowdsourced from Amazon Mechanical Turk) is a decisive factor in the recognizability of the underspeci ed sense. This sense distinction is too nuanced to be recognized using crowdsourced annotations. The automatic sense-prediction systems have been unable to nd empiric evidence for the underspeci ed sense, even though the semisupervised system recognizes the literal and metonymic senses with good performance. In this light, we propose an alternative representation for the sense alternation of dot-type words where literal and metonymic are poles in a continuum, instead of discrete categories.
dc.description.abstract Las palabras de una clase sem antica como lugar pueden comportarse meton - micamente como miembros de otra clase sem antica, como organizaci on. Este fen omeno se denomina polisemia regular. En el Generative Lexicon de Pustejovsky (1995), algunos casos de polisemia regular se encuentran agrupados en una clase sem antica compleja llamada dot type. Por ejemplo, la alternaci on de sentidos anterior es el dot type lugar orga- nizaci on. Otros ejemplos de dot type son animal carne or contenedor con- tenido. Llamamos subespeci cados a los usos de palabras pertenecientes a un dot type que son potentialmente literales y met onimicos. La polisemia regular ha recibido mucha atenci on desde la teor a en sem antica l exica y desde la ling u stica computacional. Sin embargo, no existe un consenso sobre c omo representar el sentido de los ejemplos subespeci cados al nivel de token, es decir, cuando se anotan o disambiguan sentidos de palabras de dot types. Esto nos lleva a la principal pregunta de esta tesis: >Justi ca la subespeci- caci on la incorporaci on de un tercer sentido a nuestros inventarios de sentidos cuando tratamos con dot types a nivel de token, tratando de este modo el el sentido subespeci cado como independiente de los sentidos met onimico y literal? Hemos realizado un an alisi en ingl es, dan es y espa~nol sobre la posibilidad de anotar sentidos subespeci cados usando informantes. Si los humanos no pueden annotar el sentido subespeci cado de forma consistente, la aplicabilidad del mismo en tareas computacionales ha de ser puesta en tela de juicio. Posteriormente hemos tratado de replicar los juicios humanos usando aprendizaje autom atico. Obtener un m etodo computacional que reproduzca los juicios humanos para el sentido subespeci cado ser a su ciente para incluirlo en los inventarios de sentidos para las tareas de anotaci on. La anotaci on humana ha producido resultados que indican que el tipo de anotador (voluntario o crowdsourced mediante Amazon Mechanical Turk) es un factor decisivo a la hora de reconocer el sentido subespeci cado. Esta diferenciaci on de sentidos requiere demasiados matices de interpretaci on como para poder ser anotada usando Mechanical Turk. Los sistemas de predicci on autom atica de sentidos han sido incapaces de identi car evidencia emp rica su ciente para el sentido subespeci cado, a pesar de que la tarea de reconocimiento semisupervisado reconoce los sentidos literal y meton mico de forma satisfactoria. Finalmente, propones una representaci on alternativa para la representaci on de sentidos de las palabras de dot types en la que literal y met onimico son polos en un cont nuo en lugar de categor as discretas.
dc.description.abstract Programa de doctorat en Traducció i Ciències del Llenguatge
dc.format 235 p.
dc.format application/pdf
dc.format application/pdf
dc.language.iso eng
dc.publisher Universitat Pompeu Fabra
dc.rights ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.rights info:eu-repo/semantics/openAccess
dc.source TDX (Tesis Doctorals en Xarxa)
dc.title Annotation of regular polysemy: an empirical assessment of the underspecified sense
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.date.modified 2024-03-15T10:58:12Z
dc.subject.keyword Polisèmia
dc.subject.keyword Tractament automàtic de la parla
dc.subject.keyword 81


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

In collaboration with Compliant to Partaking