UPF Digital Repository

Guides

Recent Submissions

El auge de las tecnologías de alto rendimiento ha revolucionado las ciencias de la vida, permitiendo pasar del estudio de moléculas individuales al perfilado de genomas, transcriptomas, epigenomas, microbiomas y más. Aunque muy potentes, estas tecnologías generan datos de alta dimensionalidad y con un grado considerable de ruido. Además, las técnicas de medición suelen producir valores relativos en lugar de absolutos, lo que introduce un sesgo composicional: si la cantidad absoluta de un componente aumenta, la proporción relativa de los demás se reduce automáticamente. Estas particularidades complican de forma sustancial cualquier intento de análisis o interpretación. Los métodos estadísticos tradicionales, por ejemplo, suelen asumir que las variables son independientes y se expresan en una escala absoluta, una condición que los datos composicionales no cumplen. A su vez, técnicas más complejas como el aprendizaje profundo, pese a su potencia, son extremadamente sensibles a las características de los datos: pueden sobreajustarse fácilmente a patrones ruidosos y fracasar al generalizar a nuevos contextos. El éxito de AlphaFold2 (AF2) ilustra el potencial del aprendizaje profundo en biología, pero también evidencia una limitación clave: su desarrollo se benefició de un problema bien definido y de datos extensos, limpios y estandarizados, condiciones poco frecuentes en ómicas. Numerosos métodos fueron desarrollados para afrontar las complejidades inherentes a los datos ómicos; sin embargo, ninguno ha resultado universalmente óptimo. Además, la elección de métodos suele estar condicionada por factores prácticos, como facilidad de uso, popularidad o accesibilidad, más que por su idoneidad real frente a los datos, lo que lleva a resultados subóptimos. Mi tesis aborda estos desafíos a través de múltiples contribuciones, con un foco particular en transcriptómica. Específicamente, investigué cómo el sesgo composicional afecta el análisis de correlación entre genes y propuse una forma de calcular correlaciones parciales regularizadas válidas para datos composicionales. También reinterpreté la proporcionalidad diferencial como una alternativa al análisis de expresión diferencial que evita la necesidad de normalización. Paralelamente, contribuí al desarrollo de nf-core/differentialabundance, un pipeline reproducible y escalable para el análisis diferencial dentro del ecosistema nf-core. Aunque actualmente soporta un conjunto limitado de métodos, está diseñado para ser extensible y crecer con la contribución de la comunidad. El objetivo es hacer más accesibles los enfoques alternativos y facilitar la selección e integración informada de métodos mediante análisis comparativos automatizados. Por último, reconociendo que los datos, y no solo los algoritmos, son centrales tanto en el análisis estadístico tradicional como en el aprendizaje profundo, co-desarrollé stimulus-py y nf-core/deepmodeloptim, un marco conjunto que permite explorar de manera sistemática cómo distintos aspectos de los datos, o de su procesamiento, influyen en el comportamiento de los modelos. Al colocar los datos en el centro del desarrollo, este enfoque busca generar modelos de aprendizaje profundo más robustos y generalizables en biología. El éxito de AlphaFold2 demuestra el valor del aprendizaje profundo en biología, pero el objetivo final es ir más allá de logros aislados, hacia un futuro en el que el aprendizaje profundo ofrezca soluciones confiables, interpretables y biológicamente fundamentadas en una amplia gama de tareas. Stimulus-py y nf-core/deepmodeloptim representan pasos concretos en esa dirección: herramientas para optimizar el desarrollo de modelos alineándolos con las realidades de los datos biológicos. Finalmente, la última parte de esta tesis muestra cómo las predicciones estructurales de AF2, con precisión a nivel experimental, pueden emplearse para mejorar los alineamientos múltiples de secuencias.
(2026-01-23) Jin Wu, Suzanne
Per navegar amb èxit en la vida quotidiana, és essencial formar associacions directes i indirectes entre estímuls i reconèixer les emocions dels altres. Aquesta tesi investiga els circuits neuronals que donen suport a aquests processos mitjançant dos paradigmes en ratolins: una tasca de precondicionament sensorial combinant olors i gustos per estudiar l’aprenentatge associatiu i una tasca de discriminació d’estats afectius per examinar el reconeixement emocional. Centrant-nos en l’amígdala com a nucli central d’integració de la informació afectiva, sensorial i social, hem combinat ratolins transgènics TRAP2, traçadors virals i eines farmacogenètiques per disseccionar els circuits cerebrals d’aquests comportaments complexes. En aquesta tesi demostrem que l’amígdala basolateral (BLA) i les seves aferències des de l’escorça entorrinal lateral són essencials per a la codificació d’associacions entre olors i gustos, mentre que les projeccions bidireccionals entre la BLA i l’escorça orbitofrontal medial medien el reconeixement emocional de manera específica segons el sexe. En conjunt, aquests resultats revelen circuits depenents de l’amígdala implicats en l’aprenentatge associatiu complex i els comportaments sòcio-cognitius, amb una rellevància translacional per als trastorns cerebrals.
(2026-01-23) González Parra, Jose Antonio
Aquest treball explora l’ús del raonament en els dominis de l’adquisició del llenguatge i el seguiment d’objectes. En dos estudis, vam trobar que els nens petits de 19 mesos, però no els de 12 mesos, apliquen estratègies de raonament per resoldre una tasca de selecció de referents en línia. Els resultats mostren evidència oculomotora, un patró de doble comprovació, en dues de les tres condicions. Un altre estudi va proporcionar evidència oculomotora de nens petits de 19 mesos que inferien correctament la ubicació d’un objecte en una tasca digital de tipus cucut. Vam explorar la intrincada connexió entre el rendiment en les dues tasques anteriors. Finalment, vam explorar la generalitat dels resultats de la selecció de referents en línia. Els adults aprenents de segones llengües van participar en dos estudis amb una versió ampliada de la tasca dels nens petits, que va introduir una major variabilitat en la familiaritat dels objectes presents a la tasca. Els aprenents de segona llengua van mostrar un rendiment dependent tant de la familiaritat amb l’objectiu com amb el distractor. Es proposen més estudis per explorar més a fons aquestes dependències i per aclarir els paral·lelismes entre els aprenents de primera i segona llengua.
(2026-01-22) Bohus, Kinga Anna
La recerca biomèdica moderna està cada cop més marcada per la mida i la complexitat dels conjunts de dades biològiques. Les tecnologies d’alta capacitat i les iniciatives de seqüenciació a gran escala estan generant dades a una escala sense precedents, amb exabytes de dades biològiques que s’espera que arribin durant la propera dècada. Aquests recursos ofereixen oportunitats extraordinàries per estudiar l’evolució molecular i la funció de les proteïnes. Tot i això, els mètodes computacionals existents sovint manquen de l’escalabilitat i la capacitat integradora necessàries per a aquests conjunts de dades heterogenis. En aquesta tesi, primer, investigo enfocaments integradors que combinen informació de seqüència i estructura de proteïnes per millorar l’alineament múltiple de seqüències (MSA) i augmentar la confiança en les estimacions de la inferència filogenètica. En segon lloc, dissenyo marcs reproduïbles i escalables basats en Nextflow i nf-core per a avaluar i desplegar eines de bioinformàtica i deep learning. Aquests inclouen pipelines per avaluar algoritmes de MSA, predir estructures de proteïnes i donar suport al desenvolupament de models de deep learning en genòmica. En general, aquest treball connecta la innovació metodològica amb una infraestructura computacional distribuïda i escalable, oferint solucions integradores i reproduïbles per a la bioinformàtica comparativa i el deep learning a gran escala.
(2026-01-16) Santus, Luisa
Se adoptó un diseño “polygenic-first” para inferencia causal del microbioma cecal en ratas HS, combinando metagenómica shallow-shotgun y modelos lineales mixtos para identificar efectos poligénicos del hospedador sobre rasgos del microbioma. Un pipeline reproducible optimizado para shallow-shotgun superó a 16S en la detección de estos efectos, destacando Bacteroides y Prevotella, su gremio compartido y la β-diversidad. Enriquecimientos genómicos sugirieron adaptaciones al nicho de las criptas y motivaron la selección de genes candidatos del hospedador. Un conjunto de SNP centinelas, mediante validación cruzada, explicó efectos poligénicos a nivel de género y sirvió como instrumento en mediación y aleatorización Mendeliana, dando lugar a un modelo de ecuaciones estructurales que vinculó bacterias clave, estructura comunitaria y metabolismo. Los efectos directos de estos géneros sobre la glucosa en ayunas fueron de signo opuesto y se compensaron por efectos indirectos mediados por rasgos comunitarios, apoyando intervenciones de ingeniería de nicho guiadas por genotipo.
(2026-01-28) Morillo Sanz Dias, Felipe