Generating novel proteins with biological constraints using deep conditional language modeling

Enllaç permanent

Descripció

  • Resum

    Els avanços en intel·ligència artificial i aprenentatge profund han revolucionat la recerca en proteïnes. Models de llenguatge analitzen dades de seqüències de proteïnes, revelant patrons complexos. En aquest projecte comparem una variant d’una xarxa generativa antagònica (GAN) amb atenció i un model Transformer per generar proteïnes. El Transformer supera la GAN, amb entrenament estable i resultats fiables. També proposem un model de llenguatge preentrenat amb una quantitat òptima de dades evolutives que aprèn representacions informatives amb menys recursos. El preentrenament captura coneixement bioquímic, i el refinament en proteïnes bacterianes MDH genera seqüències similars a les naturals. Les etiquetes enzimàtiques mostren una millora limitada, suggerint que el refinament ja captura informació específica del conjunt de dades.
    Los avances en inteligencia artificial y aprendizaje profundo han revolucionado la investigación en proteínas. Los modelos de lenguaje analizan datos de secuencias de proteínas, revelando patrones complejos. En este proyecto comparamos una variante de una red generativa antagónica (GAN) con atención y un modelo Transformer para generar proteínas. El Transformer supera a la GAN, con un entrenamiento estable y resultados fiables. También proponemos un modelo de lenguaje preentrenado con una cantidad óptima de datos evolutivos que aprende representaciones informativas con menos recursos. El preentrenamiento captura conocimiento bioquímico y el refinamiento en proteínas bacterianas MDH genera secuencias similares a las naturales. Las etiquetas enzimáticas muestran una mejora limitada, sugiriendo que el refinamiento ya captura información específica del conjunto de datos.
    Advancements in artificial intelligence and deep learning have revolutionized protein research. Language models analyze protein sequence datasets, revealing complex patterns. In this project, we compare a self-attention-based generative adversarial network (GAN) and a Transformer model for protein generation. The Transformer outperforms the GAN, exhibiting stable training and reliable results. We also introduce a pretrained language model with an optimal amount of evolutionary data, which learns informative representations with fewer resources. The pretraining captures biochemical knowledge, and fine-tuning on bacterial MDH proteins generates sequences similar to natural ones. Enzymatic tags offer limited improvement, suggesting fine-tuning already captures dataset-specific information.
  • Descripció

    Treball de fi de grau en Bioinformàtica. Curs 2022-2023
    Tutor: Alexis Molina
  • Mostra el registre complet