20个实验数据创造AI蛋白质里程碑!上海交大联合上海AI Lab发布FSFP,有效优化蛋白质预训练模型
原文中文,约5500字,阅读约需14分钟。发表于: 。与零样本预测相比,FSFP 在仅使用 20 个训练示例的情况下,通过提高 PLMs 在单突变体上的 Spearman 相关性的性能,使单突变体的性能提高了近 0.1,当涉及到多突变体时,这种差距变得更大。该方法首先检索现有的标记突变数据集(labeled mutant datasets),从目前最大的 DMS 数据集公共集合...
上海交通大学研究团队开发了一种名为FSFP的训练策略,可在数据匮乏情况下优化蛋白质语言模型。该方法利用元迁移学习、排序学习和参数微调,提高了蛋白质突变-性质预测的效果。研究结果发表在Nature Communications上。该研究还使用FSFP设计了Phi29 DNA聚合酶,提高了阳性率。该方法在小样本学习任务中具有显著优势,并在多个基础模型上成功应用。