Data-to-text NLG consists in converting structured data as found for instance in the Semantic Web (e.g. DBpedia, Wikidata, etc.) into well-formed text in the target language(s). The input to the system is typically a series of triples “Property(Subject, Object)” that encode a wide variety of knowledge types. There are currently different approaches to converting structured data into text. Lately, the most popular ones are neural machine-learning-based techniques, which lack energy efficiency and ...
Data-to-text NLG consists in converting structured data as found for instance in the Semantic Web (e.g. DBpedia, Wikidata, etc.) into well-formed text in the target language(s). The input to the system is typically a series of triples “Property(Subject, Object)” that encode a wide variety of knowledge types. There are currently different approaches to converting structured data into text. Lately, the most popular ones are neural machine-learning-based techniques, which lack energy efficiency and content accuracy (hallucinations, omissions). On the other hand, symbolic (rule-based) approaches that are very accurate and thus produce reliable output texts when fed with known Properties, are currently less used, in particular, due to their limitations with new (unseen) Properties when corresponding semantic representations are missed. The project aims at addressing this common problem of symbolic approaches by developing a system that converts a given triple into a plausible syntactic structure, to be further used for the creation of the required delexicalized predicate-argument structures. The main tasks of the project are retrieving a text semantically equivalent to the triple from a large corpus connected with a structured knowledge base, and transforming them into generic syntactic representations.
+
La Generació de Llenguatge Natural (NLG) de dades a text consisteix a convertir dades estructurades com es troben a la web semàntica (per exemple, DBpedia, Wikidata, etc.) en textos correctes en les llengües d’arribada. L’entrada al sistema sol ser una sèrie de triples ”Propietat(Subjecte,Objecte)” que codifiquen una gran varietat de tipus de coneixement. Actualment hi ha diferents enfocaments per convertir dades estructurades en text. Darrerament, les m’és populars són les tècniques basades en l’aprenentatge ...
La Generació de Llenguatge Natural (NLG) de dades a text consisteix a convertir dades estructurades com es troben a la web semàntica (per exemple, DBpedia, Wikidata, etc.) en textos correctes en les llengües d’arribada. L’entrada al sistema sol ser una sèrie de triples ”Propietat(Subjecte,Objecte)” que codifiquen una gran varietat de tipus de coneixement. Actualment hi ha diferents enfocaments per convertir dades estructurades en text. Darrerament, les m’és populars són les tècniques basades en l’aprenentatge automàtic neuronal, que són poc eficients energèticament i manquen de precisió del contingut(al·lucinacions, omissions).D’altra banda, els enfocaments simbòlic (basats en regles) que són preciso si, per tant, produeixen textos de sortida fiables quan s’alimenten amb propietats conegudes, actualment són menys utilitzats a causa de les seves limitacions davant noves propietats (no vistes) quan no conten amb les corresponents representacions semàntiques. El projecte pretén abordar aquest problema comú dels enfocaments simbòlic mitjançant el desenvolupament d’un sistema que converteix un triple donat en una estructura sintàctica plausible, per ser utilitzada mes endavant per a la creació de les estructures de ”Predicate-Argument” de lexicalitzats necessàries. Les tasques principals del projecte són extreure un text semànticament equivalent altri ple d’entrada, d’un gran corpus connectat amb una base de coneixement estructurada, i transformar-lo en representacions sintàctiques genèriques.
+
La Generación de Lenguaje Natural (NLG) de datos a texto consiste en convertir datos estructurados como se encuentran en la web semántica (por ejemplo, DBpedia, Wikidata, etc.) en textos correctos en las lenguas de llegada. La entrada en el sistema suele ser una serie de triples ”Propiedad (Sujeto, Objeto)” que codifican una gran variedad de tipos de conocimiento. Actualmente existen diferentes enfoques para convertir datos estructurados en texto. Últimamente, las más populares son las técnicas ...
La Generación de Lenguaje Natural (NLG) de datos a texto consiste en convertir datos estructurados como se encuentran en la web semántica (por ejemplo, DBpedia, Wikidata, etc.) en textos correctos en las lenguas de llegada. La entrada en el sistema suele ser una serie de triples ”Propiedad (Sujeto, Objeto)” que codifican una gran variedad de tipos de conocimiento. Actualmente existen diferentes enfoques para convertir datos estructurados en texto. Últimamente, las más populares son las técnicas basadas en el aprendizaje automático neuronal, que son poco eficientes energéticamente y carecen de precisión del contenido (alucinaciones, omisiones). Por otra parte, los enfoques simbólicos (basados en reglas) que son precisos y, por tanto, producen textos de salida fiables cuando se alimentan con propiedades conocidas, actualmente son menos utilizados debido a sus limitaciones frente a nuevas propiedades (no vistas) cuando no cuentan con las correspondientes representaciones semánticas. El proyecto pretende abordar este problema común de los enfoques simbólicos mediante el desarrollo de un sistema que convierte a un triple dado en una estructura sintáctica plausible, para ser utilizada más adelante para la creación de las estructuras de ”Predicate-Argumento” delexicalizados necesarias. Las principales tareas del proyecto son extraer un texto semánticamente equivalente al triple de entrada, de un gran corpus conectado con una base de conocimiento estructurada, y transformarlo en representaciones sintácticas genéricas.
+