Nf-core/reportho: a pipeline for comparative analysis of ortholog predictions
- Trujnara, Igor
- 2024-06-18
- dc.description Treball de fi de grau en Bioinformàtica. Curs 2023-2024ca
- dc.description Tutor: Cedric Notredameca
- dc.description.abstract Els gens ortòlegs són crítics per a l’estudi de la funció i evolució de les proteïnes. S’han elaborat múltiples mètodes per predir ortòlegs. Quest for Orthologs ha fet un benchmark dels mètodes, però no ha creat una comparació completa de les prediccions. Proposem nf-core/reportho, un pipeline que obté prediccions públiques d’ortòlegs, realitza comparacions sistemàtiques, calcula la similitud i la presenta en un format llegible. El pipeline demostra bon rendiment i escalabilitat. Una execució amb una mostra representativa de proteïnes humanes mostra acord limitat entre les fonts i destaca els reptes per al camp, especialment en l’aspecte d’integració de
- dc.description.abstract Los genes ortólogos son críticos para el estudio de la función y evolución de las proteinas. Se han elaborado multiples métodos para predecir ortólogos. Quest for Orthologs hizo un benchmark de los métodos, pero no creó una comparación completa de las predicciones. Presentamos nf-core/reportho, un pipeline que obtiene predicciones públicas de ortólogos, realiza comparaciones sistemáticas, calcula la similitud y la presenta de forma legible. El pipeline demuestra buen rendimiento y escalabilidad. Una ejecución con una muestra representativa de proteinas humanas demuestra acuerdo limitado entre fuentes y destaca los retos del campo, especialmente en el aspecto de integración de
- dc.description.abstract Orthologous genes are crucial for the study of protein function and evolution. Multiple methods have been created to predict orthologs. Quest for Orthologs has benchmarked those methods but has not created a comprehensive prediction comparison. We propose nf-core/reportho, a pipeline that retrieves public ortholog predictions, performs systematic comparisons, calculates agreement statistics, and presents them in a human-readable format. The pipeline shows satisfactory performance and strong scalability. A run on a representative sample of human proteins demonstrates limited agreement between sources and highlights challenges for the field, especially in the aspect of data integration.en
