20个实验数据创造AI蛋白质里程碑!上海交大联合上海AI Lab发布FSFP,有效优化蛋白质预训练模型
💡
原文中文,约5500字,阅读约需14分钟。
📝
内容提要
上海交通大学研究团队开发了一种名为FSFP的训练策略,可在数据匮乏情况下优化蛋白质语言模型。该方法利用元迁移学习、排序学习和参数微调,提高了蛋白质突变-性质预测的效果。研究结果发表在Nature Communications上。该研究还使用FSFP设计了Phi29 DNA聚合酶,提高了阳性率。该方法在小样本学习任务中具有显著优势,并在多个基础模型上成功应用。
🎯
关键要点
- 上海交通大学研究团队开发了FSFP训练策略,优化蛋白质语言模型。
- FSFP结合元迁移学习、排序学习和参数微调,提升蛋白质突变-性质预测效果。
- 研究成果发表在Nature Communications上,展示了FSFP在小样本学习任务中的优势。
- FSFP方法包括构建辅助任务、在辅助任务上训练PLMs模型和将模型转移到目标任务。
- 使用MAML算法对PLMs进行元训练,以快速适应新任务。
- FSFP通过低秩自适应技术避免训练数据过少导致的过拟合。
- FSFP在87个高通量突变数据集上进行基准测试,验证其性能。
- FSFP成功应用于ESM-1v、ESM-2和SaPro-t等基础模型,表现优于其他基线。
- FSFP在小数据集上训练时,预训练模型获得显著收益。
- FSFP设计的Phi29 DNA聚合酶阳性率提升25%。
- 洪亮教授与谈攀研究员在AI for Bioengineering领域展开合作,推动行业发展。
- 洪亮教授创立的上海天鹜科技有限公司在蛋白质设计领域取得多项成果,获得融资支持。
- 未来目标是成为全球蛋白质工程领域的领跑者,推动技术突破和应用创新。
➡️