动态蛋白质数据集:通过整合动态行为和物理属性扩展SE(3)模型
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对静态蛋白质结构研究中缺乏动态行为数据的不足,提出了一种新方法,构建了一个包含约12600个蛋白的动态数据集Dynamic PDB,结合分子动力学模拟和物理属性。在此基础上,利用SE(3)扩散模型进行轨迹预测,研究表明加入物理属性能显著提高预测精度。
本研究开发了一种基于流动的生成建模方法,用于学习和采样蛋白质的构象空间。通过改进AlphaFold和ESMFold等预测器,获得了名为AlphaFlow和ESMFlow的蛋白质结构的序列生成模型。该方法在精确性和多样性方面优于具有MSA子采样的AlphaFold。经过全原子MD集合的训练后,该方法能够准确捕捉未知蛋白质的构象灵活性和位置分布。此外,该方法可以使静态PDB结构多样化,并具有更快的收敛时间,展示了其作为基于物理的仿真的替代品的潜力。