Welcome to the UPF Digital Repository

Comparative analysis of eukaryotic gene sequence features

Show simple item record

dc.contributor.author Abril Ferrando, Josep Francesc
dc.contributor.other Guigó Serra, Roderic
dc.contributor.other Universitat Pompeu Fabra. Departament de Ciències Experimentals i de la Salut
dc.date.accessioned 2017-09-24T02:04:53Z
dc.date.available 2017-09-24T02:04:53Z
dc.date.issued 2005-05-17
dc.identifier B.47269-2005
dc.identifier 9788469112090
dc.identifier http://www.tdx.cat/TDX-1228107-174825
dc.identifier http://hdl.handle.net/10803/7108
dc.identifier.uri http://hdl.handle.net/10230/12352
dc.description.abstract L'incessant augment del nombre de seqüències genòmiques, juntament amb <br/>l'increment del nombre de tècniques experimentals de les que es disposa, <br/>permetrà obtenir el catàleg complet de les funcions cel.lulars de <br/>diferents organismes, incloent-hi la nostra espècie. Aquest catàleg <br/>definirà els fonaments sobre els que es podrà entendre millor com els <br/>organismes funcionen a nivell molecular. Al mateix temps es tindran més <br/>pistes sobre els canvis que estan associats amb les malalties. Per tant, <br/>la seqüència en brut, tal i com s'obté dels projectes de seqüenciació de <br/>genomes, no té cap valor sense les anàlisis i la subsegüent anotació de <br/>les característiques que defineixen aquestes funcions. Aquesta tesi <br/>presenta la nostra contribució en tres aspectes relacionats de <br/>l'anotació dels gens en genomes eucariotes.<br/> <br/>Primer, la comparació a nivell de seqüència entre els genomes humà i de <br/>ratolí es va dur a terme mitjançant un protocol semi-automàtic. El <br/>programa de predicció de gens SGP2 es va desenvolupar a partir <br/>d'elements d'aquest protocol. El concepte al darrera de l'SGP2 és que <br/>les regions de similaritat obtingudes amb el programa TBLASTX, es fan <br/>servir per augmentar la puntuació dels exons predits pel programa <br/>geneid, amb el que s obtenen conjunts d'anotacions més acurats <br/>d'estructures gèniques. SGP2 té una especificitat que és prou gran com <br/>per que es puguin validar experimentalment via RT-PCR. La validació de <br/>llocs d'splicing emprant la tècnica de la RT-PCR és un bon exemple de <br/>com la combinació d'aproximacions computacionals i experimentals <br/>produeix millors resultats que per separat.<br/> <br/>S'ha dut a terme l'anàlisi descriptiva a nivell de seqüència dels llocs <br/>d'splicing obtinguts sobre un conjunt fiable de gens ortòlegs per humà, <br/>ratolí, rata i pollastre. S'han explorat les diferències a nivell de <br/>nucleòtid entre llocs U2 i U12, pel conjunt d'introns ortòlegs que se'n <br/>deriva d'aquests gens. S'ha trobat que els senyals d'splicing ortòlegs <br/>entre humà i rossegadors, així com entre rossegadors, estan més <br/>conservats que els llocs no relacionats. Aquesta conservació addicional <br/>pot ser explicada però a nivell de conservació basal dels introns. <br/>D'altra banda, s'ha detectat més conservació de l'esperada entre llocs <br/>d'splicing ortòlegs entre mamífers i pollastre. Els resultats obtinguts <br/>també indiquen que les classes intròniques U2 i U12 han evolucionat <br/>independentment des de l'ancestre comú dels mamífers i les aus. Tampoc <br/>s'ha trobat cap cas convincent d'interconversió entre aquestes dues <br/>classes en el conjunt d'introns ortòlegs generat, ni cap cas de <br/>substitució entre els subtipus AT-AC i GT-AG d'introns U12. Al contrari, <br/>el pas de GT-AG a GC-AG, i viceversa, en introns U2 no sembla ser inusual.<br/> <br/>Finalment, s'han implementat una sèrie d'eines de visualització per <br/>integrar anotacions obtingudes pels programes de predicció de gens i per <br/>les anàlisis comparatives sobre genomes. Una d'aquestes eines, el <br/>gff2ps, s'ha emprat en la cartografia dels genomes humà, de la mosca del <br/>vinagre i del mosquit de la malària, entre d'altres. El programa <br/>gff2aplot i els filtres associats, han facilitat la tasca d'integrar <br/>anotacions de seqüència amb els resultats d'eines per la cerca <br/>d'homologia, com ara el BLAST. S'ha adaptat també el concepte de <br/>pictograma a l'anàlisi comparativa de llocs d splicing ortòlegs, amb el <br/>desenvolupament del programa compi.
dc.description.abstract El aumento incesante del número de secuencias genómicas, junto con el <br/>incremento del número de técnicas experimentales de las que se dispone, <br/>permitirá la obtención del catálogo completo de las funciones celulares <br/>de los diferentes organismos, incluida nuestra especie. Este catálogo <br/>definirá las bases sobre las que se pueda entender mejor el <br/>funcionamiento de los organismos a nivel molecular. Al mismo tiempo, se <br/>obtendrán más pistas sobre los cambios asociados a enfermedades. Por <br/>tanto, la secuencia en bruto, tal y como se obtiene en los proyectos de <br/>secuenciación masiva, no tiene ningún valor sin los análisis y la <br/>posterior anotación de las características que definen estas funciones. <br/>Esta tesis presenta nuestra contribución a tres aspectos relacionados de <br/>la anotación de los genes en genomas eucariotas.<br/> <br/>Primero, la comparación a nivel de secuencia entre el genoma humano y el <br/>de ratón se llevó a cabo mediante un protocolo semi-automático. El <br/>programa de predicción de genes SGP2 se desarrolló a partir de elementos <br/>de dicho protocolo. El concepto sobre el que se fundamenta el SGP2 es <br/>que las regiones de similaridad obtenidas con el programa TBLASTX, se <br/>utilizan para aumentar la puntuación de los exones predichos por el <br/>programa geneid, con lo que se obtienen conjuntos más precisos de <br/>anotaciones de estructuras génicas. SGP2 tiene una especificidad <br/>suficiente como para validar esas anotaciones experimentalmente vía <br/>RT-PCR. La validación de los sitios de splicing mediante el uso de la <br/>técnica de la RT-PCR es un buen ejemplo de cómo la combinación de <br/>aproximaciones computacionales y experimentales produce mejores <br/>resultados que por separado.<br/> <br/>Se ha llevado a cabo el análisis descriptivo a nivel de secuencia de los <br/>sitios de splicing obtenidos sobre un conjunto fiable de genes ortólogos <br/>para humano, ratón, rata y pollo. Se han explorado las diferencias a <br/>nivel de nucleótido entre sitios U2 y U12 para el conjunto de intrones <br/>ortólogos derivado de esos genes. Se ha visto que las señales de <br/>splicing ortólogas entre humanos y roedores, así como entre roedores, <br/>están más conservadas que las no ortólogas. Esta conservación puede ser <br/>explicada en parte a nivel de conservación basal de los intrones. Por <br/>otro lado, se ha detectado mayor conservación de la esperada entre <br/>sitios de splicing ortólogos entre mamíferos y pollo. Los resultados <br/>obtenidos indican también que las clases intrónicas U2 y U12 han <br/>evolucionado independientemente desde el ancestro común de mamíferos y <br/>aves. Tampoco se ha hallado ningún caso convincente de interconversión <br/>entre estas dos clases en el conjunto de intrones ortólogos generado, ni <br/>ningún caso de substitución entre los subtipos AT-AC y GT-AG en intrones <br/>U12. Por el contrario, el paso de GT-AG a GC-AG, y viceversa, en <br/>intrones U2 no parece ser inusual.<br/> <br/>Finalmente, se han implementado una serie de herramientas de <br/>visualización para integrar anotaciones obtenidas por los programas de <br/>predicción de genes y por los análisis comparativos sobre genomas. Una <br/>de estas herramientas, gff2ps, se ha utilizado para cartografiar los <br/>genomas humano, de la mosca del vinagre y del mosquito de la malaria. El <br/>programa gff2aplot y los filtros asociados, han facilitado la tarea de <br/>integrar anotaciones a nivel de secuencia con los resultados obtenidos <br/>por herramientas de búsqueda de homología, como BLAST. Se ha adaptado <br/>también el concepto de pictograma al análisis comparativo de los sitios <br/>de splicing ortólogos, con el desarrollo del programa compi.
dc.description.abstract The constantly increasing amount of available genome sequences, along <br/>with an increasing number of experimental techniques, will help to <br/>produce the complete catalog of cellular functions for different <br/>organisms, including humans. Such a catalog will define the base from <br/>which we will better understand how organisms work at the molecular <br/>level. At the same time it will shed light on which changes are <br/>associated with disease. Therefore, the raw sequence from genome <br/>sequencing projects is worthless without the complete analysis and <br/>further annotation of the genomic features that define those functions. <br/>This dissertation presents our contribution to three related aspects of <br/>gene annotation on eukaryotic genomes.<br/> <br/>First, a comparison at sequence level of human and mouse genomes was <br/>performed by developing a semi-automatic analysis pipeline. The SGP2 <br/>gene-finding tool was developed from procedures used in this pipeline. <br/>The concept behind SGP2 is that similarity regions obtained by TBLASTX <br/>are used to increase the score of exons predicted by geneid, in order to <br/>produce a more accurate set of gene structures. SGP2 provides a <br/>specificity that is high enough for its predictions to be experimentally <br/>verified by RT-PCR. The RT-PCR validation of predicted splice junctions <br/>also serves as example of how combined computational and experimental <br/>approaches will yield the best results.<br/> <br/>Then, we performed a descriptive analysis at sequence level of the <br/>splice site signals from a reliable set of orthologous genes for human, <br/>mouse, rat and chicken. We have explored the differences at nucleotide <br/>sequence level between U2 and U12 for the set of orthologous introns <br/>derived from those genes. We found that orthologous splice signals <br/>between human and rodents and within rodents are more conserved than <br/>unrelated splice sites. However, additional conservation can be <br/>explained mostly by background intron conservation. Additional <br/>conservation over background is detectable in orthologous mammalian and <br/>chicken splice sites. Our results also indicate that the U2 and U12 <br/>intron classes have evolved independently since the split of mammals and <br/>birds. We found neither convincing case of interconversion between these <br/>two classes in our sets of orthologous introns, nor any single case of <br/>switching between AT-AC and GT-AG subtypes within U12 introns. In <br/>contrast, switching between GT-AG and GC-AG U2 subtypes does not appear <br/>to be unusual.<br/> <br/>Finally, we implemented visualization tools to integrate annotation <br/>features for gene- finding and comparative analyses. One of those tools, <br/>gff2ps, was used to draw the whole genome maps for human, fruitfly and <br/>mosquito. gff2aplot and the accompanying parsers facilitate the task of <br/>integrating sequence annotations with the output of homologybased tools, <br/>like BLAST.We have also adapted the concept of pictograms to the <br/>comparative analysis of orthologous splice sites, by developing compi.
dc.format application/pdf
dc.language.iso eng
dc.publisher Universitat Pompeu Fabra
dc.rights ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.rights info:eu-repo/semantics/openAccess
dc.source TDX (Tesis Doctorals en Xarxa)
dc.title Comparative analysis of eukaryotic gene sequence features
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.date.modified 2017-09-22T10:58:54Z
dc.subject.keyword amino acid sequences
dc.subject.keyword eukaryotic cells
dc.subject.keyword cèl·lules
dc.subject.keyword seqüències dels aminoàcids
dc.subject.keyword genòmica
dc.subject.keyword chicken
dc.subject.keyword gallus gallus
dc.subject.keyword rattus norvegicus
dc.subject.keyword rat
dc.subject.keyword mus musculus
dc.subject.keyword mouse
dc.subject.keyword gene prediction RT-PCR validation
dc.subject.keyword SGP2
dc.subject.keyword evaluation
dc.subject.keyword geneid
dc.subject.keyword comparative computational gene finding
dc.subject.keyword anopheles gambiae
dc.subject.keyword genome map
dc.subject.keyword drosophila melanogaster
dc.subject.keyword fruitfly
dc.subject.keyword mosquito
dc.subject.keyword human
dc.subject.keyword compi
dc.subject.keyword gff2aplot
dc.subject.keyword gff2ps
dc.subject.keyword feature visualization
dc.subject.keyword U12
dc.subject.keyword genome annotation
dc.subject.keyword U2
dc.subject.keyword splice sites
dc.subject.keyword exonic gene structure
dc.subject.keyword genomics
dc.subject.keyword bioinformatics
dc.subject.keyword 575


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compliant to Partaking