学术分享|无惧数据匮乏!上海交大博士后周子宜详解蛋白质语言模型的小样本学习方法 FSFP

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

上海交通大学研究团队开发了一种小样本学习方法,用于提升蛋白质突变效果预测性能。该方法已成功应用于Phi29 DNA聚合酶的工程改造。周子宜博士将在9月25日的线上直播中分享该方法的应用。

🎯

关键要点

  • 上海交通大学研究团队开发了一种小样本学习方法,提升蛋白质突变效果预测性能。
  • 该方法已成功应用于Phi29 DNA聚合酶的工程改造。
  • 周子宜博士将在9月25日的线上直播中分享该方法的应用。
  • 预训练蛋白质语言模型能够无监督学习蛋白质氨基酸序列的分布特征。
  • 小样本学习方法在使用极少数实验数据的情况下显著提升传统模型的预测性能。
  • FSFP方法包含三个阶段:构建辅助任务、在辅助任务上训练PLMs、将PLMs转移到目标任务。
  • FSFP使用ListMLE损失来学习突变适应度的排名。
  • 研究选择ProteinGym作为基准测试数据集,包含约150万个错义变体。
  • FSFP训练的PLMs在所有训练数据规模上优于其他基线,外推性能评估更优。
  • 上海交通大学洪亮课题组专注于AI蛋白和药物设计等领域,已发表77篇研究论文。

延伸问答

什么是小样本学习方法?

小样本学习方法是一种在使用极少数实验数据的情况下,显著提升传统模型预测性能的技术。

FSFP方法的主要步骤是什么?

FSFP方法包含三个阶段:构建辅助任务、在辅助任务上训练PLMs、将PLMs转移到目标任务。

FSFP方法在蛋白质工程中的应用效果如何?

FSFP方法成功应用于Phi29 DNA聚合酶的工程改造,显著提升了阳性率。

周子宜博士将在直播中分享什么内容?

周子宜博士将在直播中分享蛋白质语言模型的小样本学习方法及其应用。

ProteinGym数据集的特点是什么?

ProteinGym数据集包含约150万个错义变体,来自87个DMS测序实验,是FSFP方法的基准测试数据集。

上海交通大学洪亮课题组的研究方向是什么?

该课题组的研究方向主要包括AI蛋白和药物设计、分子生物物理等领域。

➡️

继续阅读