以结构/序列/功能之间的关系重新定义蛋白质语言模型的分类:李明辰博士详解蛋白质语言模型

💡 原文中文,约9500字,阅读约需23分钟。
📝

内容提要

上海交通大学将于2025年8月举办第三届「AI for Bioengineering 暑期学校」,吸引200余位青年学者探讨AI与生物工程的结合。李明辰博士介绍了蛋白质语言模型在功能预测和序列生成方面的研究进展,并提出了一种基于蛋白质结构、序列和功能的新分类方法,强调了其在突变预测和蛋白质设计中的应用。

🎯

关键要点

  • 上海交通大学将于2025年8月举办第三届「AI for Bioengineering 暑期学校」,吸引200余位青年学者探讨AI与生物工程的结合。
  • 李明辰博士介绍了蛋白质语言模型在功能预测和序列生成方面的研究进展。
  • 提出了一种基于蛋白质结构、序列和功能的新分类方法,强调其在突变预测和蛋白质设计中的应用。
  • 蛋白质语言模型具有三大核心功能:将蛋白质序列表示为高维向量、判别氨基酸序列的合理性、生成新的蛋白质序列。
  • 根据氨基酸序列预测功能的模型称为功能预测模型,是当前研究的热点方向之一。
  • 突变功能预测模型通过判断氨基酸变化是否符合自然蛋白质序列的概率分布来评估突变的合理性。
  • 开发了低通量、高精度的小样本Benchmark VenusMutHub,以提高突变预测的准确性。
  • 提出了集成模型VenusEEM,根据困惑度来选择模型,从而提高突变预测的准确度。
  • 从功能生成序列的逆向问题是当前研究中的挑战,通常需要通过实验验证模型的准确性。
  • AlphaFold是经典的序列到结构预测模型,但蛋白质语言模型在速度上具有优势。
  • 逆折叠语言模型用于从已知结构生成氨基酸序列,是蛋白质设计的重要工具。
  • 引入外部信息和改进内部架构是增强蛋白质语言模型性能的有效方法。
  • 扩展定律表明,模型性能会随着参数规模和训练数据量的增加而提升,但数据质量同样重要。
  • 基因组模型通过设计基因来优化蛋白质的产量,面临细胞内环境相互关系的挑战。
  • 李明辰博士的研究方向为预训练蛋白质语言模型及其微调,已在多个国际期刊上发表多篇论文。

延伸问答

蛋白质语言模型的核心功能有哪些?

蛋白质语言模型具有三大核心功能:将蛋白质序列表示为高维向量、判别氨基酸序列的合理性、生成新的蛋白质序列。

李明辰博士提出的蛋白质语言模型新分类方法是什么?

李明辰博士提出了一种基于蛋白质结构、序列和功能之间关系的新分类方法,分为序列→功能、功能→序列、序列→结构和结构→序列四类。

如何评估蛋白质突变功能预测模型的准确性?

评估蛋白质突变功能预测模型的准确性需要使用Benchmark,如ProteinGym,通过对比模型预测的分数与真实分数的相关性来判断。

蛋白质语言模型在突变预测中的应用是什么?

蛋白质语言模型通过判断氨基酸变化是否符合自然蛋白质序列的概率分布来评估突变的合理性,从而进行突变预测。

什么是逆折叠语言模型,它的作用是什么?

逆折叠语言模型用于从已知的蛋白质结构生成对应的氨基酸序列,是蛋白质设计的重要工具。

基因组模型在蛋白质生产中的作用是什么?

基因组模型通过设计基因来优化蛋白质的产量,解决如何从蛋白质序列反推出DNA序列的问题。

➡️

继续阅读