OpenProteinSet: 大规模结构生物学训练数据
原文中文,约300字,阅读约需1分钟。发表于: 。为了推动蛋白质的机器学习研究进展,我们介绍了一个开源数据集 OpenProteinSet,其中包含超过 1600 万个蛋白质多序列比对,与蛋白质数据库中的结构同源物和 AlphaFold2 蛋白质结构预测相对应,可广泛用于蛋白质结构、功能、设计以及大规模多模式机器学习研究的训练和验证数据。
FastFold是AlphaFold模型的高效实现,通过Dynamic Axial Parallelism和Duality Async Operations提高并行性扩展效率,AutoChunk减少内存成本。实验结果显示,FastFold训练时间缩短至67小时,长序列推理加速7.5-9.5倍。扩展到512个GPU,总吞吐量6.02 PetaFLOP/s,并行效率90.1%。