Welcome to the UPF Digital Repository

Structure determination of mycoplasma pneumoniae genome

Show simple item record

dc.contributor.author Trussart, Marie, 1985-
dc.contributor.other Martí Renom, Marc. A.
dc.contributor.other Serrano Pubull, Luis, 1982-
dc.contributor.other Universitat Pompeu Fabra. Departament de Ciències Experimentals i de la Salut
dc.date.accessioned 2018-05-17T01:20:11Z
dc.date.available 2018-05-17T01:20:11Z
dc.date.issued 2015-10-30
dc.identifier http://hdl.handle.net/10803/552940
dc.identifier.uri http://hdl.handle.net/10230/34647
dc.description.abstract Des de l’aparició de les tecnologies de seqüenciació d’alt rendiment, els conjunts de dades biològiques han esdevingut cada cop més grans i complexes, la qual cosa els fa pràcticament impossibles d’interpretar manualment. El paradigma de l’aprenentatge automàtic permet fer una anàlisi sistemàtica de les relacions i patrons existents en els conjuts de dades, tot aprofitant l’enorme volum de dades disponibles. No obstant això, una aplicació poc curosa dels principis bàsics de l’aprenentatge automàtic pot conduir a estimacions massa optimistes, un problema prevalent conegut com a sobreajust. En el camp del plegament de proteïnes, en vam trobar exemples en models publicats que afirmaven tenir un alt poder predictiu, però que es comportaven de forma mediocre devant de dades noves. En el camp de l’epigenètica, problemes com la falta de reproducibilitat, qualitat heterogènia i conflictes entre replicats esdevenen evidents quan es comparen diferents conjunts de dades de ChIP-seq. Per superar aquestes limitacions vam desenvolupar Zerone, un discretitzador de ChIP-seq basat en aprenentatge automàtic que és capaç de combinar informació de diferents replicats experimentals i d’identificar automàticament dades de baixa qualitat o irreproduïbles.
dc.description.abstract Since the appearance of high throughput sequencing technologies, biological data sets have become increasingly large and complex, which renders them practically impossible to interpret directly by a human. The machine learning paradigm allows a systematic analysis of relationships and patterns within data sets, making possible to extract information by leveraging the sheer amount of data available. However, violations of basic machine learning principles may lead to overly optimistic estimates, a prevalent problem known as overfitting. In the field of protein folding, we found examples of this in published models that claimed high predictive power, but that performed poorly on new data. A different problem arises in epigenetics. Issues such as lack of reproducibility, heterogeneous quality and conflicts between replicates become evident when comparing ChIP-seq data sets. To overcome this limitations we developed Zerone, a machine learning-based ChIP-seq discretizer capable of merging information from several experimental replicates and automatically identifying low quality or irreproducible data.
dc.format application/pdf
dc.format 122 p.
dc.language.iso eng
dc.publisher Universitat Pompeu Fabra
dc.rights ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.rights info:eu-repo/semantics/openAccess
dc.source TDX (Tesis Doctorals en Xarxa)
dc.title Structure determination of mycoplasma pneumoniae genome
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.date.modified 2018-05-15T16:18:00Z
dc.subject.keyword Machine learning
dc.subject.keyword HMM
dc.subject.keyword SVM
dc.subject.keyword Epigenetics
dc.subject.keyword ChIP-seq
dc.subject.keyword Aprenentange automàtic
dc.subject.keyword Epigenètica
dc.subject.keyword 575


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compliant to Partaking