Large-scale comparative bioinformatics analyses

Mostra el registre complet Registre parcial de l'ítem

  • dc.contributor.author Chatzou, Maria
  • dc.contributor.other Notredame, Cedric
  • dc.contributor.other Universitat Pompeu Fabra. Departament de Ciències Experimentals i de la Salut
  • dc.date.accessioned 2024-03-16T02:33:35Z
  • dc.date.available 2024-03-16T02:33:35Z
  • dc.date.issued 2018-07-19T15:59:08Z
  • dc.date.issued 2018-07-19T15:59:08Z
  • dc.date.issued 2016-11-07
  • dc.date.modified 2024-03-15T10:57:36Z
  • dc.description.abstract One of the main and most recent challenges of modern biology is to keep-up with growing amount of biological data coming from next generation sequencing technologies. Keeping up with the growing volumes of experiments will be the only way to make sense of the data and extract actionable biological insights. Large-scale comparative bioinformatics analyses are an integral part of this procedure. When doing comparative bioinformatics, multiple sequence alignments (MSAs) are by far the most widely used models as they provide a unique insight into the accurate measure of sequence similarities and are therefore instrumental to revealing genetic and/or functional relationships among evolutionarily related species. Unfortunately, the well-established limitation of MSA methods when dealing with very large datasets potentially compromises all downstream analysis. In this thesis I expose the current relevance of multiple sequence aligners, I show how their current scaling up is leading to serious numerical stability issues and how they impact phylogenetic tree reconstruction. For this purpose, I have developed two new methods, MEGA-Coffee, a large scale aligner and Shootstrap a novel bootstrapping measure incorporating MSA instability with branch support estimates when computing trees. The large amount of computation required by these two projects was carried using Nextflow, a new computational framework that I have developed to improve computational efficiency and reproducibility of large-scale analyses like the one carried out in the context of these studies.
  • dc.description.abstract Uno de los principales y más recientes retos de la biología moderna es poder hacer frente a la creciente cantidad de datos biológicos procedentes de las tecnologías de secuenciación de alto rendimiento. Mantenerse al día con los crecientes volúmenes de datos experimentales es el único modo de poder interpretar estos datos y extraer conclusiones biológicos relevantes. Los análisis bioinformáticos comparativos a gran escala son una parte integral de este procedimiento. Al hacer bioinformática comparativa, los alineamientos múltiple de secuencias (MSA) son con mucho los modelos más utilizados, ya que proporcionan una visión única de la medida exacta de similitudes de secuencia y son, por tanto, fundamentales para inferir las relaciones genéticas y / o funcionales entre las especies evolutivamente relacionadas. Desafortunadamente, la conocida limitación de los métodos MSA para analizar grandes bases de datos, puede potencialmente comprometer todos los análisis realizados a continuación. En esta tesis expongo la relevancia actual de los métodos de alineamientos multiples de secuencia, muestro cómo su uso en datos masivos está dando lugar a serios problemas de estabilidad numérica y su impacto en la reconstrucción del árbol filogenético. Para este propósito, he desarrollado dos nuevos métodos, MEGA-café, un alineador de gran escala y Shootstrap una nueva medida de bootstrapping que incorpora la inestabilidad del MSA con las estimaciones de apoyo de rama en el cálculo de árboles filogéneticos. La gran cantidad de cálculo requerido por estos dos proyectos se realizó utilizando Nextflow, un nuevo marco computacional que se ha desarrollado para mejorar la eficiencia computacional y la reproducibilidad del análisis a gran escala como la que se lleva a cabo en el contexto de estos estudios.
  • dc.description.abstract Programa de doctorat en Biomedicina
  • dc.format 121 p.
  • dc.format application/pdf
  • dc.format application/pdf
  • dc.identifier http://hdl.handle.net/10803/587086
  • dc.identifier.uri http://hdl.handle.net/10230/35218
  • dc.language.iso eng
  • dc.publisher Universitat Pompeu Fabra
  • dc.rights ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
  • dc.rights info:eu-repo/semantics/openAccess
  • dc.source TDX (Tesis Doctorals en Xarxa)
  • dc.subject.keyword Multiple sequence aligments
  • dc.subject.keyword Evolutionary analyses
  • dc.subject.keyword Comparative bioinformatics analyses
  • dc.subject.keyword Computational reproducibility
  • dc.subject.keyword Computational workflow frameworks
  • dc.subject.keyword Alineamiento múltiple de secuencias
  • dc.subject.keyword Análisis evolutivo
  • dc.subject.keyword Análisis bioinformático comparativo
  • dc.subject.keyword Reproducibvilidad computacional
  • dc.subject.keyword Entornos computacionales de flujo de datos
  • dc.subject.keyword 575
  • dc.title Large-scale comparative bioinformatics analyses
  • dc.type info:eu-repo/semantics/doctoralThesis
  • dc.type info:eu-repo/semantics/publishedVersion

Col·leccions