Welcome to the UPF Digital Repository

Towards an image-term co-occurence model for multilingual terminology alignment and cross-language image indexing

Show simple item record

dc.contributor.author Burgos Herrera, Diego A.
dc.contributor.other Wanner, Leo
dc.contributor.other Universitat Pompeu Fabra. Institut Universitari de Lingüística Aplicada
dc.date.accessioned 2017-09-25T01:39:15Z
dc.date.available 2017-09-25T01:39:15Z
dc.date.issued 2014-05-19
dc.identifier B 16262-2014
dc.identifier http://hdl.handle.net/10803/145644
dc.identifier.uri http://hdl.handle.net/10230/22604
dc.description.abstract This thesis addresses the potential that the relation between terms and images in multilingual specialized documentation has for glossary compilation, terminology alignment, and image indexing. It takes advantage of the recurrent use of these two modes of communication (i.e., text and images) in digital documents to build a bimodal co-occurrence model which aims at dynamically compiling glossaries of a wider coverage. The model relies on the developments of content-based image retrieval (CBIR) and text processing techniques. CBIR is used to make two images from different origin match, and text processing supports term recognition, artifact noun classification, and image-term association. The model aligns one image with its denominating term from collateral text, and then aligns this image with another image of the same artifact from a different document, which also enables the alignment of the two equivalent denominating terms. The ultimate goal of the model is to tackle the limitations and drawbacks of current static terminological repositories by generating bimodal, bilingual glossaries that reflect real usage, even when terms and images may originate from noisy corpora.
dc.description.abstract Esta tesis enfoca la relación entre términos e imágenes en documentación especializada y su potencial para compilación de glosarios, alineación de terminología e indexación de imágenes. Asimismo, esta investigación se vale del frecuente uso de estos dos modos de comunicación (i.e., texto e imágenes) en documentos digitales para construir un modelo de concurrencia bimodal que guíe la compilación de glosarios de más cobertura. El modelo se basa en los desarrollos de técnicas de recuperación de imágenes por contenido (CBIR) y de procesamiento de texto. Las técnicas de CBIR se usan aquí para conectar dos imágenes de distinto origen, mientras que el procesamiento de texto sustenta las tareas de reconocimiento de términos, clasificación de nombres de artefacto y asociación término-imagen. El modelo asocia una imagen con el término del texto circundante que la denomina y luego alinea esta imagen con otra imagen del mismo artefacto pero que se origina en otro documento, lo cual permite también la alineación de los dos términos equivalentes que denominan los artefactos de las imágenes. El objetivo principal del modelo es contribuir a compensar el estatismo, las limitaciones y las desventajas de los repositorios terminológicos actuales mediante la generación de glosarios bimodales bilingües que reflejen el uso real de los términos, incluso cuando éstos y sus imágenes se originen en corpus problemáticos.
dc.format application/pdf
dc.format 186 p.
dc.language.iso eng
dc.publisher Universitat Pompeu Fabra
dc.rights ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.rights info:eu-repo/semantics/openAccess
dc.source TDX (Tesis Doctorals en Xarxa)
dc.title Towards an image-term co-occurence model for multilingual terminology alignment and cross-language image indexing
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.date.modified 2017-09-23T04:30:55Z
dc.subject.keyword Image-term alignment
dc.subject.keyword Image indexing
dc.subject.keyword Web as corpus
dc.subject.keyword Term recognition
dc.subject.keyword Noun classification
dc.subject.keyword Content-based image retrieval
dc.subject.keyword Asociación término-imagen
dc.subject.keyword Indexación de imágenes
dc.subject.keyword Web como corpus
dc.subject.keyword Recuperación de imágenes por contenido
dc.subject.keyword Reconocimiento de términos
dc.subject.keyword Clasificación de nombres
dc.subject.keyword 186
dc.subject.keyword 81


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compliant to Partaking