Workflow management applications for comparative omics

dc.contributor.authorVignoli, Alessio
dc.contributor.directorNotredame, Cedric
dc.contributor.directorMalhotra, Vivek
dc.contributor.tutorNotredame, Cedric
dc.date.accessioned2025-12-12T21:01:10Z
dc.date.available2025-12-12T21:01:10Z
dc.date.issued2025-12-03
dc.description.abstractEl crecimiento explosivo de los datos biológicos exige soluciones computacionales que sean escalables, reproducibles y robustas. Los sistemas de gestión de flujos de trabajo (workflows), especialmente cuando se combinan con la contenedorización, abordan estos desafíos al automatizar, paralelizar y estandarizar análisis bioinformáticos complejos. En esta tesis exploro las aplicaciones de dichos sistemas en la ómica comparativa, con un enfoque en el desarrollo e implementación de canalizaciones (pipelines) reutilizables dentro de la comunidad nf-core. A través del estudio piloto TANGO1, que investigó la región transmembrana de la proteína TANGO1, se identificaron y abordaron varias necesidades computacionales críticas mediante soluciones personalizadas de flujos de trabajo. Estas incluyen REPORTHO y MULTIPLESEQUENCEALIGN para la recuperación y alineamiento de ortólogos, PARALOGS para el análisis filogenético de familias génicas, y STIMULUS para la selección de modelos en aprendizaje automático. En conjunto, estos proyectos ilustran cómo los gestores de flujos de trabajo potencian la investigación biológica al mejorar la reproducibilidad, la eficiencia y la integración de datos en diversas aplicaciones ómicas.
dc.description.abstractThe explosive growth of biological data demands computational solutions that are scalable, reproducible, and robust. Workflow management systems, especially when combined with containerization, address these challenges by automating, parallelizing, and standardizing complex bioinformatics analyses. In this thesis I explore the applications of such systems in comparative omics, with a focus on the development and implementation of reusable pipelines within the nf-core community. Through the TANGO1 pilot study, which investigated the transmembrane region of the TANGO1 protein, several critical computational needs were identified and addressed via custom workflow solutions. These include REPORTHO and MULTIPLESEQUENCEALIGN for ortholog retrieval and alignment, PARALOGS for phylogenetic analysis of gene families, and STIMULUS for model selection in machine learning. Together, these projects illustrate how workflow managers empower biological research by enhancing reproducibility, efficiency, and data integration across diverse omics applications.
dc.description.degreeUniversitat Pompeu Fabra. Doctorat en Biomedicina
dc.embargo.termscap
dc.format.extent139 p.
dc.identifierhttp://hdl.handle.net/10803/696096
dc.identifier.urihttps://hdl.handle.net/10803/696096
dc.language.isoeng
dc.publisherUniversitat Pompeu Fabra
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess
dc.rights.licenseL'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/
dc.sourceTDX (Tesis Doctorals en Xarxa)
dc.subjectBioinformatics
dc.subjectBioinformática
dc.subjectComparative Genomics
dc.subjectGenómica Comparativa
dc.subjectWorkflow Management
dc.subjectGestión de Flujos de Trabajo
dc.subjectReproducibility
dc.subjectReproducibilidad
dc.subjectComputational Biology
dc.subjectBiología Computacional
dc.subject.udc575
dc.titleWorkflow management applications for comparative omics
dc.typeinfo:eu-repo/semantics/doctoralThesis
dc.typeinfo:eu-repo/semantics/publishedVersion

Files

Collections

License

Rights