Deep stochastic sentence generation : resources and strategies
Mostra el registre complet Registre parcial de l'ítem
- dc.contributor.author Mille, Simon
- dc.contributor.other Wanner, Leo
- dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
- dc.date.accessioned 2024-03-16T02:33:20Z
- dc.date.available 2024-03-16T02:33:20Z
- dc.date.issued 2014-10-14T10:34:33Z
- dc.date.issued 2014-10-14T10:34:33Z
- dc.date.issued 2014-07-25
- dc.date.modified 2024-03-15T10:58:00Z
- dc.description.abstract The present Ph.D. thesis addresses the problem of deep data-driven Natural Language Generation (NLG), and in particular the role of proper corpus annotation schemata for stochastic sentence realization. The lack of multilevel corpus annotation has prevented so far the development of proper statistical NLG systems starting from abstract structures. We first detail a methodology for annotating corpora at different levels of linguistic abstraction (namely, semantic, deep-syntactic, surface-syntactic, topological, and morphological levels), and report on the actual annotation of such corpora, manually for Spanish and automatically for English. Then, using the resulting annotated data for our experiments, we train and evaluate deep stochastic NLG tools which go beyond the current state of the art, in particular thanks to the absence of rules in non-isomorphic transductions. Finally, we show that such data can also serve well other purposes such as statistical surface and deep dependency parsing.
- dc.description.abstract La presente tesis aborda el problema de la generación de textos partiendo desde estructuras profundas; se examina especialmente el papel de un esquema de anotación apropiado para la generación estadística de oraciones. La falta de anotación en varios niveles ha impedido hasta ahora el desarrollo de sistemas de generación estadística desde estructuras abstractas. En primer lugar, se detalla la metodología para anotar corpus en varios niveles (representaciones semánticas, sintácticas profundas, sintácticas superficiales, topológicas y morfológicas), y se presenta su proceso de anotación, manual para el español, y automático para el inglés. Posteriormente, se usan los datos anotados para entrenar y evaluar varios generadores de textos que van más allá del estado del arte actual, en particular porque no contienen reglas para transducciones no isomórficas. Por último, se muestra que estos datos se pueden utilizar también para otros objetivos tales como el análisis sintáctico estadístico de estructuras superficiales y profundas.
- dc.description.abstract Programa de doctorat en Tecnologies de la Informació i les Comunicacions
- dc.format 326 p.
- dc.format application/pdf
- dc.format application/pdf
- dc.identifier http://hdl.handle.net/10803/283136
- dc.identifier B 23198-2014
- dc.identifier.uri http://hdl.handle.net/10230/22722
- dc.language.iso eng
- dc.publisher Universitat Pompeu Fabra
- dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
- dc.rights http://creativecommons.org/licenses/by-nc-nd/3.0/
- dc.rights info:eu-repo/semantics/openAccess
- dc.source TDX (Tesis Doctorals en Xarxa)
- dc.subject.keyword Corpus
- dc.subject.keyword Annotation
- dc.subject.keyword Dependency
- dc.subject.keyword Multilevel
- dc.subject.keyword Resource creation
- dc.subject.keyword Natural Language Processing
- dc.subject.keyword NLP
- dc.subject.keyword Natural Language Generation
- dc.subject.keyword NLG
- dc.subject.keyword Text generation
- dc.subject.keyword Data-driven
- dc.subject.keyword Machine Learning
- dc.subject.keyword Syntax
- dc.subject.keyword Semantics
- dc.subject.keyword Morphology
- dc.subject.keyword Morpho-syntax
- dc.subject.keyword Annotation methodology
- dc.subject.keyword Annotation criteria
- dc.subject.keyword Annotation tools
- dc.subject.keyword Graph transduction
- dc.subject.keyword Spanish
- dc.subject.keyword English
- dc.subject.keyword Parsing
- dc.subject.keyword Meaning-Text Theory
- dc.subject.keyword MTT
- dc.subject.keyword AnCora
- dc.subject.keyword Anotación
- dc.subject.keyword Dependencias
- dc.subject.keyword Multinivel
- dc.subject.keyword Creación de recursos
- dc.subject.keyword Procesamiento del Lenguaje Natural
- dc.subject.keyword PLN
- dc.subject.keyword Generación de Lenguaje Natural
- dc.subject.keyword NLG
- dc.subject.keyword Generación profunda
- dc.subject.keyword Generación de textos
- dc.subject.keyword Estadístico
- dc.subject.keyword Aprendizaje automático
- dc.subject.keyword Sintáxis
- dc.subject.keyword Semántica
- dc.subject.keyword Morfología
- dc.subject.keyword Morfo-sintáxis
- dc.subject.keyword Metodología de anotación
- dc.subject.keyword Transducción de grafos
- dc.subject.keyword Español
- dc.subject.keyword Inglés
- dc.subject.keyword Análisis sintáctico
- dc.subject.keyword Teoría Sentido-Texto
- dc.subject.keyword TST
- dc.subject.keyword 62
- dc.title Deep stochastic sentence generation : resources and strategies
- dc.type info:eu-repo/semantics/doctoralThesis
- dc.type info:eu-repo/semantics/publishedVersion