学术分享|无惧数据匮乏!上海交大博士后周子宜详解蛋白质语言模型的小样本学习方法 FSFP

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

上海交通大学研究团队开发了一种小样本学习方法,用于提升蛋白质突变效果预测性能。该方法已成功应用于Phi29 DNA聚合酶的工程改造。周子宜博士将在9月25日的线上直播中分享该方法的应用。

🎯

关键要点

  • 上海交通大学研究团队开发了一种小样本学习方法,提升蛋白质突变效果预测性能。
  • 该方法已成功应用于Phi29 DNA聚合酶的工程改造。
  • 周子宜博士将在9月25日的线上直播中分享该方法的应用。
  • 预训练蛋白质语言模型能够无监督学习蛋白质氨基酸序列的分布特征。
  • 小样本学习方法在使用极少数实验数据的情况下显著提升传统模型的预测性能。
  • FSFP方法包含三个阶段:构建辅助任务、在辅助任务上训练PLMs、将PLMs转移到目标任务。
  • FSFP使用ListMLE损失来学习突变适应度的排名。
  • 研究选择ProteinGym作为基准测试数据集,包含约150万个错义变体。
  • FSFP训练的PLMs在所有训练数据规模上优于其他基线,外推性能评估更优。
  • 上海交通大学洪亮课题组专注于AI蛋白和药物设计等领域,已发表77篇研究论文。
➡️

继续阅读