超强DNA大模型「GENERator」问世!解锁生命密码设计新范式

超强DNA大模型「GENERator」问世!解锁生命密码设计新范式

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

阿里云的AI for Science团队推出了生成式DNA大模型GENERator,具备超长序列建模和跨物种泛化能力,能够生成真实蛋白质的DNA序列,并设计基因开关,推动基因组学研究。未来将扩展应用于原核生物和临床基因组学。

🎯

关键要点

  • 阿里云的AI for Science团队推出了生成式DNA大模型GENERator,具备超长序列建模和跨物种泛化能力。
  • GENERator能够生成真实蛋白质的DNA序列,并设计基因开关,推动基因组学研究。
  • 模型具有98k碱基对的上下文长度和12亿参数,能够精准捕捉复杂的基因结构。
  • 训练数据涵盖3860亿bp的真核生物DNA数据,适用于广泛的基因组分析任务。
  • GENERator在多项benchmark指标中展现出顶尖水平,与姊妹模型GENERanno并列登顶SOTA。
  • 生成可翻译成真实蛋白质的DNA序列,成功再造组蛋白/P450家族的新变体。
  • 生成序列的PPL分布与天然家族高度吻合,显示出其生物学意义。
  • 利用AlphaFold3预测生成蛋白质的三维结构,结果显示与已知结构高度相似。
  • 通过简单指令设计高/低活性基因开关,为合成生物学和基因工程提供新工具。
  • 基于DeepSTARR的启动子活性数据,开发了启动子活性预测器,准确率超越现有模型。
  • 采用基因序列训练策略,专注于DNA的核心语义信息,显著提升模型表现。
  • 选择6-mer分词器提升生成任务表现,平衡序列分辨率和上下文覆盖范围。
  • 未来计划扩展模型应用于原核生物和临床基因组学,推动精准医疗和生物技术干预。

延伸问答

GENERator模型的主要功能是什么?

GENERator模型能够生成真实蛋白质的DNA序列,并设计基因开关,推动基因组学研究。

GENERator在性能上与其他模型相比如何?

GENERator在多项benchmark指标中展现出顶尖水平,与姊妹模型GENERanno并列登顶SOTA。

该模型如何处理DNA序列的训练数据?

训练数据涵盖3860亿bp的真核生物DNA数据,专注于DNA的核心语义信息,显著提升模型表现。

如何利用GENERator设计基因开关?

通过简单指令设计高/低活性基因开关,为合成生物学和基因工程提供新工具。

GENERator的未来应用计划是什么?

未来计划扩展模型应用于原核生物和临床基因组学,推动精准医疗和生物技术干预。

生成的DNA序列与天然序列的相似性如何?

生成序列的PPL分布与天然家族高度吻合,显示出其生物学意义。

➡️

继续阅读