Strategy for accurate CNV detection and ML algorithm for classifying NGS variants

Mostra el registre complet Registre parcial de l'ítem

  • dc.contributor.author Malagón Márquez, Alba
  • dc.date.accessioned 2021-11-18T11:23:42Z
  • dc.date.available 2021-11-18T11:23:42Z
  • dc.date.issued 2021
  • dc.description Treball de fi de grau en Bioinformàtica. Curs 2020-2021ca
  • dc.description Tutor: Jairo Rodríguez Lumbiarresca
  • dc.description.abstract Aquest projecte pretén millorar l'eficiència de la interpretació de variants NGS, ja que és un procés manual no escalable que requereix molt de temps. En primer lloc, s’ha millorat l'especificitat detectant les CNV, reduint un 5,86% el nombre de variants dubtoses, escurçant així el temps global d'anàlisi per mostra. En segon lloc, s’ha desenvolupat una eina d'aprenentatge automàtic per classificar SNPs i INDELs. L’algoritme Random Forest ha demostrat una precisió del 96%; a més, un 10,17% del total de variants per anàlisi es pot filtrar, el que resulta en un impacte significatiu en l'eficiència de la interpretació de variants.ca
  • dc.description.abstract Este proyecto pretende mejorar la eficiencia de la interpretación de variantes NGS, ya que es proceso manual no escalable que consume mucho tiempo. En primer lugar, se ha mejorado la especificidad detectando las CNVs, reduciendo el número de variantes dudosas en un 5,86%, acortando así el tiempo global de análisis por muestra. En segundo lugar, se ha desarrollado una herramienta de aprendizaje automático para la clasificación de SNPs e INDELs. El algoritmo Random Forest ha demostrado una precisión del 96%; además, un 10,17% de variantes por análisis puede filtrarse, impactando asísignificativamente en la eficiencia de la interpretación de variantes.
  • dc.description.abstract This project aims to improve the efficiency of NGS variant interpretation since it is a time-consuming and non-scalable manual process. As a first part, we have improved the detection specificity of CNVs, from which we have reduced the number of dubious calls by a 5.86%,shortening the overall analysistime persample. As a second part, we have developed a machine learning tool for classifying SNPs and INDELs. A Random Forest algorithm has proven a successful classification over 96%, and 10.17% of the total variants per analysis can be filtered out, resulting in a significant impact on variant interpretation efficiency.en
  • dc.format.mimetype application/pdf*
  • dc.identifier.uri http://hdl.handle.net/10230/49014
  • dc.language.iso engca
  • dc.rights This is an Open Access article distributed under the terms of the Creative Commons Attribution-NonCommercial-NoDerivs 3.0 licenseca
  • dc.rights.accessRights info:eu-repo/semantics/openAccessca
  • dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/es/ca
  • dc.subject.keyword Variació en el número de còpiaca
  • dc.subject.keyword Polimorfisme de nucleòtids simplesca
  • dc.subject.keyword Indel
  • dc.subject.keyword Interpretació de variantsca
  • dc.subject.keyword Predicció de variantsca
  • dc.subject.keyword Genómica
  • dc.subject.keyword Variación en el número de copia
  • dc.subject.keyword Polimorfismo de nucleótido único
  • dc.subject.keyword Aprendizaje automático
  • dc.subject.keyword Interpretación de variantes
  • dc.subject.keyword Predicción de variantes
  • dc.subject.keyword Genomicsen
  • dc.subject.keyword Copy number variationen
  • dc.subject.keyword Single-nucleotide polymorphismen
  • dc.subject.keyword Machine learningen
  • dc.subject.keyword Variant interpretationen
  • dc.subject.keyword Variant predictionen
  • dc.subject.other Treball de fi de grau – Curs 2020-2021ca
  • dc.subject.other Genòmicaca
  • dc.subject.other Polimorfisme genèticca
  • dc.subject.other Aprenentatge automàticca
  • dc.title Strategy for accurate CNV detection and ML algorithm for classifying NGS variantsca
  • dc.type info:eu-repo/semantics/bachelorThesisca