Enhancing health literacy accessibility: an exploration of computational approaches to lay summarization

Enllaç permanent

Descripció

  • Resum

    As demonstrated by the global Covid-19 pandemic, it is crucial that everyone has access to health literacy in order to make informed decisions in day-to-day life. However, the inherent complexity of biomedical texts and the lack of prior knowledge among non-specialists restricts access to this crucial information that significantly impacts society. To improve the accessibility of biomedical information to the general population, this thesis aims to develop a computational system for generating simplified summaries of biomedical articles automatically. To achieve this goal, we use a dataset which has been provided by the organizers of the shared task BioLaySumm 2024, one of the tasks offered in the BioNLP Workshop of the Association for Computational Linguistics (ACL). This dataset consists of pairs of articles and their simplified summaries. Using these datasets, we build the systems based on transformer networks using two different strategies for content selection. The basic structure of the systems consists of a pre-trained language model, called BART, which we fine-tune for abstractive lay summary generation. In contrast, to select important parts in an extractive manner by choosing relevant fragments of the original text, we use an algorithm called TextRank. We experimented with combinations of the two models to compare the performances.
    Tal i com va demostrar la pandèmia mundial de la Covid-19, és crucial que tothom tingui accés a la literatura sanitària per poder prendre decisions informades en el dia a dia. No obstant això, la complexitat inherent dels textos biomèdics i la manca de coneixements previs entre els no especialitzats restringeix l’accés a aquesta informació crucial que afecta significativament la societat. Per millorar l’accessibilitat de la informació biomèdica per la població general, aquesta tesi pretén desenvolupar un sistema computacional per generar resums simplificats d’articles biomèdics de manera automàtica. Per aconseguir aquest objectiu, utilitzem un conjunt de dades que ha estat proporcionat pels organitzadors de la tasca compartida BioLaySumm 2024, una de les tasques que s'ofereixen al Taller BioNLP de l'Associació per a la Lingüística Computacional (ACL). Aquest conjunt de dades consisteix en parells d'articles i els seus resums simplificats. Utilitzant aquests conjunts de dades, construïm els sistemes basats en xarxes transformadores utilitzant dues estratègies diferents per a la selecció de continguts. L'estructura bàsica dels sistemes consisteix en un model de llenguatge pre-entrenat, anomenat BART, que afinem per a la generació de resums abstractius simplificats. En canvi, per seleccionar parts importants de manera extractiva escollint fragments rellevants del text original, vam utilitzar un algoritme anomenat TextRank. Hem experimentat amb combinacions dels dos models per comparar els seus rendiments.
    Tal y como demostró la pandemia mundial de la Covid-19, es crucial que todo el mundo tenga acceso a la literatura sanitaria para poder tomar decisiones informadas en el día a día. Sin embargo, la complejidad inherente de los textos biomédicos y la carencia de conocimientos previos entre los no especializados restringe el acceso a esta información crucial que afecta significativamente la sociedad. Para mejorar la accesibilidad de la información biomédica para la población general, esta tesis pretende desarrollar un sistema computacional para generar resúmenes simplificados de artículos biomédicos de manera automática. Para conseguir este objetivo, utilizamos un conjunto de datos que ha sido proporcionado por los VI organizadores de la tarea compartida BioLaySumm 2024, una de las tareas que se ofrecen al Taller BioNLP de la Asociación para la Lingüística Computacional (ACL). Este conjunto de datos consiste en pares de artículos y sus resúmenes simplificados. Utilizando estos conjuntos de datos, construimos los sistemas basados en redes transformadoras utilizando dos estrategias diferentes para la selección de contenidos. La estructura básica de los sistemas consiste en un modelo de lenguaje pre-entrenado, denominado BART, que afinamos para la generación de resúmenes abstractivos simplificados. En cambio, para seleccionar partes importantes de manera extractiva escogiendo fragmentos relevantes del texto original, utilizamos un algoritmo llamado TextRank. Hemos experimentado con combinaciones de los dos modelos para comparar sus rendimientos.
  • Descripció

    Tutor: Horacio Saggion
    Treball de fi de grau en Enginyeria Matemàtica en Ciència de Dades
  • Mostra el registre complet