💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
北京理工大学邵斌教授团队在《Nature Communications》上发表研究,推出首个生成式DNA大语言模型megaDNA,该模型能够生成长达10万碱基对的噬菌体基因组片段,并预测必需基因,具有重要的学术和应用价值。
🎯
关键要点
- 北京理工大学邵斌教授团队在《Nature Communications》上发表研究,推出首个生成式DNA大语言模型megaDNA。
- megaDNA模型能够生成长达10万碱基对的噬菌体基因组片段,并预测必需基因。
- 生成式语言模型以GPT为代表,采用词语接龙的方式进行训练,具备强大的生成能力。
- DNA序列和人类语言都是序列信息,生成式大语言模型可以帮助解读DNA编码的信息。
- 训练DNA语言模型的优势在于数据规模大,但生成长序列存在显存消耗问题。
- megaDNA模型采用三层Transformer结构,处理不同精度的DNA信息,能够覆盖噬菌体基因组。
- 利用megaDNA模型生成了一千条崭新的基因组DNA序列,具有与真实噬菌体基因组高度相似的特征。
- megaDNA模型能够无监督地预测必需基因,预测准确度达到0.86。
- 该研究为噬菌体基因组注释和功能序列设计开辟了新路径,具有广泛的应用前景。
➡️