西湖大学团队开源SaProt等多款蛋白质语言模型,覆盖结构功能预测/跨模态信息搜索/氨基酸序列设计等

💡 原文中文,约6100字,阅读约需15分钟。
📝

内容提要

2025年3月22-23日,上海交通大学将举办AI蛋白质设计峰会,汇聚300多位专家学者,探讨AI在蛋白质设计中的应用。西湖大学的原发杰博士将分享蛋白质语言模型的研究进展,包括SaProt、ProTrek、Pinal和Evolla等,展示AI在蛋白质结构预测和设计中的重要性。

🎯

关键要点

  • 2025年3月22-23日,上海交通大学将举办AI蛋白质设计峰会,汇聚300多位专家学者。
  • 西湖大学的原发杰博士将分享蛋白质语言模型的研究进展,包括SaProt、ProTrek、Pinal和Evolla等。
  • 蛋白质是由20种氨基酸组成,承担催化和代谢等关键功能,结构分为四个层级。
  • AlphaFold 2解决了蛋白质折叠问题,获得诺贝尔奖,推动了蛋白质结构预测的研究。
  • 蛋白质语言模型的研究基于氨基酸序列和结构信息,主要包括单向和双向语言模型。
  • SaProt模型结合结构感知词汇,在多个下游任务中超越已有基线模型。
  • SaProt模型使用Foldseek将蛋白质结构信息转化为离散token,提升模型性能。
  • ColabSaprot平台简化了蛋白质语言模型的训练和预测流程,降低了使用门槛。
  • ProTrek模型用于对比学习蛋白质序列、结构和功能,支持多种查询方式。
  • Pinal模型基于文本描述设计蛋白质序列,结合结构信息提高预测准确性。
  • Evolla模型是一个800亿参数的蛋白质语言生成模型,能够生成蛋白质功能见解。
  • 西湖大学原发杰博士团队专注于AI大模型与计算生物学的研究,欢迎申请相关职位。

延伸问答

西湖大学的原发杰博士在峰会上分享了哪些蛋白质语言模型的研究进展?

原发杰博士分享了SaProt、ProTrek、Pinal和Evolla等蛋白质语言模型的研究进展。

SaProt模型的主要特点是什么?

SaProt模型结合了结构感知词汇,能够在多个下游任务中超越已有基线模型。

ColabSaprot平台的功能是什么?

ColabSaprot平台简化了蛋白质语言模型的训练和预测流程,降低了使用门槛。

ProTrek模型的用途是什么?

ProTrek模型用于对比学习蛋白质序列、结构和功能,支持多种查询方式。

Pinal模型是如何设计蛋白质序列的?

Pinal模型基于文本描述设计蛋白质序列,结合结构信息提高预测准确性。

Evolla模型的主要功能是什么?

Evolla模型能够生成蛋白质功能见解,用户只需输入蛋白质的序列和结构。

➡️

继续阅读