Optimization of alignment preprocessing used as input on a residual neural
network for substitution model selection
Optimization of alignment preprocessing used as input on a residual neural network for substitution model selection
Enllaç permanent
Descripció
Resum
Quan es realitza la reconstrucció d'un arbre filogenètic, sovint veiem que l'ús d'un model incorrecte d'evolució pot produir un arbre mal modelat, i l'ús dels mètodes utilitzats comunament per fer-ho pot ser computacionalment costós i propens a errors. ModelRevelator utilitza aprenentatge profund per decidir quin model d’evolució utilitzar per a un determinat anàlisi de seqüències múltiples. En aquest projecte, vaig intentar millorar el rendiment d'una de les xarxes neuronals de ModelRevelator utilitzant una estrategia diferent per al preprocessament de la informació continguda a les alineacions de seqüències múltiples: Seleccionant aleatòriament subset de les alineacions, vaig calcular un conjunt d'estadístiques continguda en cada subset per millorar els mètodes anteriors.
Al realizar la reconstrucción de un árbol filogenético, a menudo vemos que el uso de un modelo incorrecto de evolución puede producir un árbol mal modelado, y el uso de los métodos usados comunmente para hacerlo puede ser computacionalmente costoso y propenso a errores. ModelRevelator utiliza aprendizaje profundo para decidir qué modelo de evolución utilizar para un determinado análisis de secuencias múltiples. En este proyecto, intenté mejorar el rendimiento de una de las redes neuronales de ModelRevelator utilizando un enfoque diferente para el preprocesamiento de la información contenida en las alineaciones de secuencias múltiples: Seleccionando aleatoriamente subsets de las alineaciones, calculé un conjunto de estadísticas contenida en cada uno de los subsets para mejorar los resultados anteriores.
When performing phylogenetic tree reconstruction, we often see that the use of an incorrect model of sequence evolution can lead to a wrongly modeled tree, and using established methods to do so can be computationally expensive and prone to errors. ModelRevelator uses deep learning to decide which model of sequence evolution to use for a certain multiple sequence analysis. In this project, I tried to improve the performance of one of ModelRevelator’s neural networks by using a different approach to preprocessing the information contained in multiple sequence alignments: By randomly selecting subsets of the alignments I computed a set of summary statistics summarizing the information contained in each one to improve previous methods.Descripció
Treball de fi de grau en Bioinformàtica. Curs 2021-2022
Tutor: Sebastian Burgstaller-Muehlbacher