Strategy for accurate CNV detection and ML algorithm for classifying NGS variants

Enllaç permanent

Descripció

  • Resum

    Aquest projecte pretén millorar l'eficiència de la interpretació de variants NGS, ja que és un procés manual no escalable que requereix molt de temps. En primer lloc, s’ha millorat l'especificitat detectant les CNV, reduint un 5,86% el nombre de variants dubtoses, escurçant així el temps global d'anàlisi per mostra. En segon lloc, s’ha desenvolupat una eina d'aprenentatge automàtic per classificar SNPs i INDELs. L’algoritme Random Forest ha demostrat una precisió del 96%; a més, un 10,17% del total de variants per anàlisi es pot filtrar, el que resulta en un impacte significatiu en l'eficiència de la interpretació de variants.
    Este proyecto pretende mejorar la eficiencia de la interpretación de variantes NGS, ya que es proceso manual no escalable que consume mucho tiempo. En primer lugar, se ha mejorado la especificidad detectando las CNVs, reduciendo el número de variantes dudosas en un 5,86%, acortando así el tiempo global de análisis por muestra. En segundo lugar, se ha desarrollado una herramienta de aprendizaje automático para la clasificación de SNPs e INDELs. El algoritmo Random Forest ha demostrado una precisión del 96%; además, un 10,17% de variantes por análisis puede filtrarse, impactando asísignificativamente en la eficiencia de la interpretación de variantes.
    This project aims to improve the efficiency of NGS variant interpretation since it is a time-consuming and non-scalable manual process. As a first part, we have improved the detection specificity of CNVs, from which we have reduced the number of dubious calls by a 5.86%,shortening the overall analysistime persample. As a second part, we have developed a machine learning tool for classifying SNPs and INDELs. A Random Forest algorithm has proven a successful classification over 96%, and 10.17% of the total variants per analysis can be filtered out, resulting in a significant impact on variant interpretation efficiency.
  • Descripció

    Treball de fi de grau en Bioinformàtica. Curs 2020-2021
    Tutor: Jairo Rodríguez Lumbiarres
  • Mostra el registre complet