Mapping eQTL networks with mixed graphical models

Enllaç permanent

Descripció

  • Resum

    Expression quantitative trait loci (eQTL) mapping constitutes a challenging problem due to the high-dimensional multivariate nature of continuous gene expression traits and discrete genotypes from genetical genomics experiments. Next to the expression heterogeneity produced by confounding factors and other sources of unwanted variation, indirect e ects spread throughout genes as a result of genetic, molecular and environmental perturbations. Disentangling direct from indirect e ects while adjusting for unwanted variability should help us moving from current parts list of molecular components to understanding how these components work together in networks of eQTL and gene to gene associations. There is a large body of statistical methodology to tackle this challenge within the context of linear models for continuous data. However, little has been investigated in using graphical Markov models (GMMs) and conditional independence on mixed continuous and discrete data from genetical genomics data sets, which are powerful tools for the analysis of complex associations. In this thesis we investigate the use of mixed GMMs to estimate eQTL networks from data. We develop procedures to simulate these models and data from them to gather insight into the propagation of additive e ects throughout the network. We derive the parameters for a likelihood ratio exact test that enables use of higher-order conditional independence with mixed GMMs. We exploit this test in the context of limited-order correlations and marginal distributions to obtain estimates of the underlying eQTL net- work. We show in the context of a yeast genetical genomics data set, that this estimate leads to a sparser network with more direct associations that provide valuable insight into the genetic control of gene expression in yeast. We develop an algorithm for accurate es- timation of the genetic e ects of eQTLs in the presence of missing data. All algorithms described in this thesis are implemented in the R/Bioconductor package qpgraph.
    La cartogra a gen etica dels trets quantitatius d'expressi o (eQTL) esdev e un gran repte degut a la naturalesa multivariant d'alta dimensionalitat dels trets continus d'expressi o g enica i els genotips discrets dels experiments de gen omica gen etica. A m es de l'heterogene tat de l'expressi o produ da pels factors de confusi o i altres fonts de variabilitat no desitjada, els efectes indirectes s'estenen per tots els gens com a resultat de perturbacions gen etiques, moleculars i ambientals. L'identi caci o d'efectes directes tot ajustant pels efectes de variabilitat no desitjada, ens hauria de permetre entendre com els diferents components moleculars interaccionen en xarxes d'associacions entre eQTLs i gens. Per abordar aquest problema, existeixen nombrosos m etodes estad stics en el context dels models lineals per a dades cont nues. En canvi, els models gr a cs de Markov (GMMs) i la independ encia condicional, tot i que s on eines adients per a l'estudi d'associacions complexes, han estat poc investigades en el context de dades mixtes cont nues i discretes de gen omica gen etica. En aquesta tesi, investiguem l' us dels GMMs mixtes per a estimar xarxes d'eQTLs. Desenvolupem procediments per a simular GMMs mixtes i simular dades a partir d'aquests models per tal d'investigar la propagaci o dels efectes additius a trav es de la xarxa. Derivem els par ametres d'un test de versemblan ca exacte que ens permet utilitzar independ encies condicionals d'ordre gran amb els GMMs mixtes. Utilitzem aquest test en el context de correlacions d'ordre limitat i distribucions marginals per a obtenir estimacions de la xarxa d'eQTLs subjacent. Tamb e mostrem que, en el context d'un conjunt de dades de gen omica gen etica de llevat, aquesta estimaci o d ona lloc a una xarxa esparsa amb associacions m es directes que ens proporcionen informaci o rellevant sobre el control gen etic de l'expressi o dels gens en llevat. Desenvolupem un algoritme per estimar de manera acurada els efectes gen etics dels eQTLs a partir de dades missing. Tots els algoritmes descrits en aquesta tesi estan implementats en el paquet de R/Bioconductor qpgraph.
    Programa de doctorat en Biomedicina
  • Col·leccions

  • Mostra el registre complet