Generating novel proteins with biological constraints using deep conditional language modeling
| dc.contributor.author | Serrano Aranda, Yaiza | |
| dc.date.accessioned | 2024-04-26T09:41:32Z | |
| dc.date.available | 2024-04-26T09:41:32Z | |
| dc.date.issued | 2023-06-21 | |
| dc.description | Treball de fi de grau en Bioinformàtica. Curs 2022-2023 | ca |
| dc.description | Tutor: Alexis Molina | ca |
| dc.description.abstract | Els avanços en intel·ligència artificial i aprenentatge profund han revolucionat la recerca en proteïnes. Models de llenguatge analitzen dades de seqüències de proteïnes, revelant patrons complexos. En aquest projecte comparem una variant d’una xarxa generativa antagònica (GAN) amb atenció i un model Transformer per generar proteïnes. El Transformer supera la GAN, amb entrenament estable i resultats fiables. També proposem un model de llenguatge preentrenat amb una quantitat òptima de dades evolutives que aprèn representacions informatives amb menys recursos. El preentrenament captura coneixement bioquímic, i el refinament en proteïnes bacterianes MDH genera seqüències similars a les naturals. Les etiquetes enzimàtiques mostren una millora limitada, suggerint que el refinament ja captura informació específica del conjunt de dades. | ca |
| dc.description.abstract | Los avances en inteligencia artificial y aprendizaje profundo han revolucionado la investigación en proteínas. Los modelos de lenguaje analizan datos de secuencias de proteínas, revelando patrones complejos. En este proyecto comparamos una variante de una red generativa antagónica (GAN) con atención y un modelo Transformer para generar proteínas. El Transformer supera a la GAN, con un entrenamiento estable y resultados fiables. También proponemos un modelo de lenguaje preentrenado con una cantidad óptima de datos evolutivos que aprende representaciones informativas con menos recursos. El preentrenamiento captura conocimiento bioquímico y el refinamiento en proteínas bacterianas MDH genera secuencias similares a las naturales. Las etiquetas enzimáticas muestran una mejora limitada, sugiriendo que el refinamiento ya captura información específica del conjunto de datos. | |
| dc.description.abstract | Advancements in artificial intelligence and deep learning have revolutionized protein research. Language models analyze protein sequence datasets, revealing complex patterns. In this project, we compare a self-attention-based generative adversarial network (GAN) and a Transformer model for protein generation. The Transformer outperforms the GAN, exhibiting stable training and reliable results. We also introduce a pretrained language model with an optimal amount of evolutionary data, which learns informative representations with fewer resources. The pretraining captures biochemical knowledge, and fine-tuning on bacterial MDH proteins generates sequences similar to natural ones. Enzymatic tags offer limited improvement, suggesting fine-tuning already captures dataset-specific information. | en |
| dc.format.mimetype | application/pdf | * |
| dc.identifier.uri | http://hdl.handle.net/10230/59921 | |
| dc.language.iso | eng | ca |
| dc.rights | This is an Open Access article distributed under the terms of the Creative Commons Attribution-NonCommercial-NoDerivs 3.0 license | ca |
| dc.rights.accessRights | info:eu-repo/semantics/openAccess | ca |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/es/ | ca |
| dc.subject.keyword | Intel·ligència artificial | ca |
| dc.subject.keyword | Disseny de proteïnes de novo | ca |
| dc.subject.keyword | Arquitectura transformer | ca |
| dc.subject.keyword | Inteligencia artificial | |
| dc.subject.keyword | Diseño de proteínas de novo | |
| dc.subject.keyword | Artificial intelligence | en |
| dc.subject.keyword | De novo protein design | en |
| dc.subject.keyword | Transformer architecture | en |
| dc.subject.other | Treball de fi de grau – Curs 2022-2023 | ca |
| dc.title | Generating novel proteins with biological constraints using deep conditional language modeling | ca |
| dc.type | info:eu-repo/semantics/bachelorThesis | ca |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- TFGBDBI23SERRANO_Gene.pdf
- Size:
- 1.96 MB
- Format:
- Adobe Portable Document Format
- Description:

