PLM重大突破!上海交大与上海AI Lab最新成果入选NeurIPS 24,ProSST有效整合蛋白质结构信息

💡 原文中文,约4900字,阅读约需12分钟。
📝

内容提要

蛋白质的功能与其三维结构密切相关。科学家们开发了预训练的蛋白质语言模型ProSST,结合结构信息以提高预测准确性。ProSST在1,880万蛋白质结构数据上预训练,采用解耦注意力机制,显著提升了热稳定性和金属离子结合等任务的预测性能,成为蛋白质研究的重要工具。

🎯

关键要点

  • 蛋白质的功能与其三维结构密切相关。
  • 科学家们开发了预训练的蛋白质语言模型ProSST,结合结构信息以提高预测准确性。
  • ProSST在1,880万蛋白质结构数据上预训练,采用解耦注意力机制。
  • ProSST在热稳定性和金属离子结合等任务的预测性能显著提升。
  • ProSST模型架构包括结构量化模块和序列-结构解耦注意力机制。
  • ProSST的参数量为110M,远小于经典模型,但在下游任务中表现最佳。
  • ProSST在ProteinGym基准测试中排名第一,首次实现零样本突变性能预测Spearman相关性超过0.5。
  • 研究团队使用AlphaFoldDB和CATH43-S40等数据集进行无监督预训练。
  • ProSST的结构量化模块将蛋白质结构转化为离散的结构元,提升了局部结构的表征能力。
  • ProSST的解耦注意力机制使模型能够学习氨基酸序列与结构之间的复杂关系。
  • ProSST在监督学习任务中表现优异,获得多个第一名和第二名。
  • PLM研究主要分为检索增强型和多模态PLM两大方向,ProSST属于后者。
  • PLM逐渐成为生命科学领域的重要工具,具有巨大的应用潜力。

延伸问答

ProSST模型的主要创新点是什么?

ProSST模型结合了蛋白质结构信息和氨基酸序列,通过解耦注意力机制有效整合这两类信息,显著提升了预测性能。

ProSST在蛋白质研究中有哪些应用?

ProSST在热稳定性预测、金属离子结合预测、蛋白质定位预测和GO注释预测等任务中表现优异。

ProSST的参数量与其他模型相比如何?

ProSST的参数量为110M,远小于经典模型ESM系列的650M,但在下游任务中表现最佳。

ProSST如何处理蛋白质结构信息?

ProSST通过结构量化模块将蛋白质结构转化为离散的结构元,并与氨基酸序列一起输入模型。

ProSST在ProteinGym基准测试中的表现如何?

ProSST在ProteinGym基准测试中排名第一,首次实现零样本突变性能预测Spearman相关性超过0.5。

ProSST的解耦注意力机制有什么作用?

解耦注意力机制使模型能够学习氨基酸序列与结构之间的复杂关系,从而提高模型的性能和稳定性。

➡️

继续阅读