入选顶会ICML,清华AIR等联合发布蛋白质语言模型ESM-AA,超越传统SOTA

💡 原文中文,约4500字,阅读约需11分钟。
📝

内容提要

蛋白质语言模型ESM-AA通过多尺度训练提高了蛋白质结构预测和适应性预测的性能。ESM-AA在靶点-配体结合任务中表现优于其他模型,并在分子表示学习任务中超越了最先进模型。ESM-AA的多尺度预训练框架包括掩码语言建模和成对距离恢复。ESM-AA在酶-底物亲和力回归任务和药物-靶点亲和力回归任务中表现优于其他模型。蛋白质语言模型的应用前景广阔,不仅限于医疗和生物制药领域,还可扩展到其他领域。

🎯

关键要点

  • 蛋白质在细胞内扮演重要角色,催化生命活动并维系生物体形态与功能。
  • 传统实验方法解析蛋白质结构耗时费力,蛋白质语言模型(PLMs)利用深度学习技术取得显著成就。
  • 清华大学研究团队提出多尺度蛋白质语言模型ESM-AA,拓展了处理原子尺度信息的能力。
  • ESM-AA在靶点-配体结合任务中表现优于其他模型,并在分子表示学习任务中超越了最先进模型。
  • 多尺度预训练框架包括掩码语言建模和成对距离恢复,提升了模型性能。
  • 研究使用了包含蛋白质和分子数据的组合数据集进行预训练,确保模型能处理多种输入。
  • 多尺度位置编码框架设计了残基尺度和原子尺度的位置编码,确保预训练效果。
  • ESM-AA在酶-底物亲和力回归和药物-靶点亲和力回归任务中表现优异,超越其他模型。
  • 消融实验表明,模型性能依赖于蛋白质数据的训练,缺失会显著降低性能。
  • ESM-AA在二级结构预测和无监督接触预测任务中表现良好,显示出对蛋白质的理解能力。
  • 蛋白质语言模型在新药开发、疾病治疗和基础生物学研究中具有重大意义。
  • 蛋白质语言模型的发展受益于模型规模、数据集大小和计算量的增加,性能显著提高。
  • 企业界蛋白质语言模型快速发展,出现多个先进模型,推动蛋白质理解任务的进步。
  • ESM-AA的技术突破可能推动蛋白质语言模型在多个领域的应用,带来技术革新。
➡️

继续阅读