生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊

生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

北京理工大学邵斌教授团队在《Nature Communications》上发表研究,推出首个生成式DNA大语言模型megaDNA,该模型能够生成长达10万碱基对的噬菌体基因组片段,并预测必需基因,具有重要的学术和应用价值。

🎯

关键要点

  • 北京理工大学邵斌教授团队在《Nature Communications》上发表研究,推出首个生成式DNA大语言模型megaDNA。
  • megaDNA模型能够生成长达10万碱基对的噬菌体基因组片段,并预测必需基因。
  • 生成式语言模型以GPT为代表,采用词语接龙的方式进行训练,具备强大的生成能力。
  • DNA序列和人类语言都是序列信息,生成式大语言模型可以帮助解读DNA编码的信息。
  • 训练DNA语言模型的优势在于数据规模大,但生成长序列存在显存消耗问题。
  • megaDNA模型采用三层Transformer结构,处理不同精度的DNA信息,能够覆盖噬菌体基因组。
  • 利用megaDNA模型生成了一千条崭新的基因组DNA序列,具有与真实噬菌体基因组高度相似的特征。
  • megaDNA模型能够无监督地预测必需基因,预测准确度达到0.86。
  • 该研究为噬菌体基因组注释和功能序列设计开辟了新路径,具有广泛的应用前景。
➡️

继续阅读