Show simple item record

dc.contributor.author Sheang, Kim Cheng
dc.contributor.other Saggion, Horacio
dc.contributor.other Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.date.accessioned 2024-03-16T02:34:31Z
dc.date.available 2024-03-16T02:34:31Z
dc.date.issued 2023-11-13T15:04:43Z
dc.date.issued 2023-11-13T15:04:43Z
dc.date.issued 2023-11-02
dc.identifier http://hdl.handle.net/10803/689317
dc.identifier.uri http://hdl.handle.net/10230/58256
dc.description.abstract Reading is an essential skill that plays a crucial role in our daily lives. It allows us to access information, gain knowledge, expand our understanding of the world around us, and build the foundation for learning, communication, and personal growth. However, many texts we encounter day after day often contain complex words or syntactic structures that can cause reading difficulties for certain groups of people; this motivates the need for Automatic Text Simplification (ATS). ATS is a Natural Language Processing (NLP) task that aims to reduce the linguistic complexity of a text while preserving its original information and meaning. It involves various operations, such as replacing complex words with simpler synonyms, splitting long sentences into shorter ones, and reorganizing the structure of the text. The goal of ATS is to make texts more accessible and understandable to a broader audience, including non-native speakers, children, and individuals with Dyslexia, Autism, Aphasia, Intellectual Disabilities, and Deaf and Hard of Hearing. In this work, we will discuss our proposed methods for Complex Word Identification (CWI), Lexical Simplification (LS), and Sentence Simplification (SS) in order to help improve reading comprehension. For CWI, we propose several systems based on different machine learning algorithms, such as Convolutional Neural Networks, CatBoost, and XGBoost with word embeddings and feature-engineered for identifying complex words in English, Spanish, German, and French texts. For LS, we propose two systems, monolingual English and multilingual system supporting English, Spanish, and Portuguese. For SS, we propose several systems to simplify English and Spanish texts. In both LS and SS, we explore the use of transfer learning and controllable mechanism, where the transfer learning help create the model that requires less amount of training data, and the controllable mechanism gives us the ability to adjust the outputs based on our preference, especially for different target audiences.
dc.description.abstract La lectura és una habilitat essencial que juga un paper crucial en la nostra vida quotidiana. La lectura ens permet accedir a la informació, adquirir coneixements, ampliar la nostra comprensió del món que ens envolta i construir les bases per a l'aprenentatge, la comunicació, i creixement personal. No obstant això, molts textos sovint contenen paraules complexes o estructures sintàctiques que poden provocar dificultats lectores per a determinats grups de persones; això motiva la necessitat de la simplificació automàtica de text (ATS). ATS es una tasca que pretén reduir la complexitat lingüística d'un text tot conservant la seva informació i significat originals. Implica diversos operacions, com ara substituir paraules complexes per sinònims més senzills, dividir les frases llargues en frases més curtes i reorganitzant l'estructura del text. L'objectiu d'ATS és fer que els textos siguin més accessibles i entenedors a un públic més ampli. En aquest treball, presentem nostra proposta de mètodes d'identificació de paraules complexes (CWI), simplificació lèxica (LS) i Simplificació de frases (SS) per tal de fer els textos més accessibles. Pel que fa la CWI, proposem diversos sistemes basats en algorismes d'aprenentatge automàtic, com ara xarxes neuronals de convolucions, “CatBoost” i “XGBoost” amb incrustacions de paraules i característiques dissenyades per identificar paraules complexes en anglès, espanyol, alemany i francès. Pel que fa la LS, proposem dos sistemes, un pel anglès i un multilingüe. Per a la SS, explorem l'ús de l'aprenentatge de transferència i el mecanismes de control, on l'aprenentatge de transferència ajuda a crear un model que requereix menys quantitat de dades d'entrenament mentre que el mecanisme de control ens dona la capacitat per ajustar les sortides en funció de la nostra preferència, especialment per a diferents públics objectiu.
dc.description.abstract Programa de Doctorat en Tecnologies de la Informació i les Comunicacions
dc.format 184 p.
dc.format application/pdf
dc.language.iso eng
dc.publisher Universitat Pompeu Fabra
dc.rights L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights info:eu-repo/semantics/openAccess
dc.source TDX (Tesis Doctorals en Xarxa)
dc.title Multilingual adaptative text simplification
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.date.modified 2024-03-15T10:58:01Z
dc.subject.keyword Adaptive text simplification
dc.subject.keyword Lexical simplification
dc.subject.keyword Sentence simplification
dc.subject.keyword Complex word identification
dc.subject.keyword Controllable lexical and sentence simplification
dc.subject.keyword Simplificació adaptativa de text
dc.subject.keyword Simplificació lèxica
dc.subject.keyword Simplificació de frases
dc.subject.keyword Identificació de paraules complexes
dc.subject.keyword Simplificació léxica i oracional controlable
dc.subject.keyword 62


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

In collaboration with Compliant to Partaking