💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

阿里云的AI for Science团队推出了生成式DNA大模型GENERator,具备超长序列建模和跨物种泛化能力,能够生成真实蛋白质的DNA序列,并设计基因开关,推动基因组学研究。未来将扩展应用于原核生物和临床基因组学。

🎯

关键要点

  • 阿里云的AI for Science团队推出了生成式DNA大模型GENERator,具备超长序列建模和跨物种泛化能力。
  • GENERator能够生成真实蛋白质的DNA序列,并设计基因开关,推动基因组学研究。
  • 模型具有98k碱基对的上下文长度和12亿参数,能够精准捕捉复杂的基因结构。
  • 训练数据涵盖3860亿bp的真核生物DNA数据,适用于广泛的基因组分析任务。
  • GENERator在多项benchmark指标中展现出顶尖水平,与姊妹模型GENERanno并列登顶SOTA。
  • 生成可翻译成真实蛋白质的DNA序列,成功再造组蛋白/P450家族的新变体。
  • 生成序列的PPL分布与天然家族高度吻合,显示出其生物学意义。
  • 利用AlphaFold3预测生成蛋白质的三维结构,结果显示与已知结构高度相似。
  • 通过简单指令设计高/低活性基因开关,为合成生物学和基因工程提供新工具。
  • 基于DeepSTARR的启动子活性数据,开发了启动子活性预测器,准确率超越现有模型。
  • 采用基因序列训练策略,专注于DNA的核心语义信息,显著提升模型表现。
  • 选择6-mer分词器提升生成任务表现,平衡序列分辨率和上下文覆盖范围。
  • 未来计划扩展模型应用于原核生物和临床基因组学,推动精准医疗和生物技术干预。
➡️

继续阅读