小红花·文摘

本文介绍了RITA模型，这是一种自回归生成模型，专注于蛋白质序列，拥有12亿个参数，并训练了2.8亿个蛋白质序列。研究评估了该模型在氨基酸预测和酶功能预测中的表现，展示了规模扩大的优势。同时，文章探讨了大型语言模型在生物分子领域的应用及其性能，强调了多模态学习在生物信息学中的潜力。