百度蛋白配体全原子扩散模型效果直逼AlphaFold3,代码数据全面开源

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

百度飞桨螺旋桨PaddleHelix团队开源了基于大规模预训练方法的HelixDock全原子扩散模型,能够准确预测蛋白质和小分子的结合构象。该模型具有高精度、泛化能力和鲁棒性,通过大规模数据验证了AI在科学领域的Scaling Laws。HelixDock代码和训练数据已全面开源,PaddleHelix计算平台提供免费在线服务。

🎯

关键要点

  • 蛋白质-小分子构象预测是小分子药物发现中的重要任务。
  • 传统的物理对接工具准确性受限于构象采样和评分函数。
  • 深度学习技术被引入以提高预测准确性,但训练数据匮乏影响泛化能力。
  • 百度飞桨PaddleHelix团队开源了HelixDock全原子扩散模型,能够准确预测蛋白质和小分子的结合构象。
  • HelixDock通过生成亿级仿真数据构建了蛋白质-小分子对接构象数据集。
  • HelixDock在构象预测准确度上超越传统工具和其他深度学习方法。
  • HelixDock在PoseBusters上的成功率达85.6%,仅次于AlphaFold3。
  • 模型在低相似度靶点上保持良好成功率,展现出良好的泛化能力和鲁棒性。
  • HelixDock在虚拟筛选任务中表现优异,富集指数明显优于其他方法。
  • HelixDock联合国家超算生成亿级别的仿真对接数据,验证了AI在科学领域的Scaling Laws。
  • HelixDock的代码和训练数据已全面开源,支持学术研究和药物发现。
  • PaddleHelix计算平台提供免费在线服务,方便用户体验HelixDock的能力。
➡️

继续阅读