本研究提出EvoLlama框架,结合结构和序列编码器,提升大语言模型对蛋白质的理解。EvoLlama在零样本设置中优于其他模型,并在蛋白质属性预测任务中表现出色。
通过创新的预训练框架,提出了一个统一的蛋白质语言模型xTrimoPGLM,能够同时处理蛋白质理解和生成任务。xTrimoPGLM具有超过1000亿个参数和1万亿个训练标记的规模,在18个蛋白质理解基准测试中优于其他基准。它能够提供蛋白质结构的原子分辨率视图,并超越现有基于语言模型的工具的3D结构预测能力。此外,xTrimoPGLM可以生成全新的蛋白质序列,并在精调后进行可编程的生成。这些结果凸显了xTrimoPGLM在蛋白质科学中的重要意义。
完成下面两步后,将自动完成登录并继续当前操作。