机器之心 ·

生成超10万bp的DNA序列，北理工邵斌团队生成式DNA大语言模型，登Nature子刊

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

北京理工大学邵斌教授团队在《Nature Communications》上发表研究，推出首个生成式DNA大语言模型megaDNA，该模型能够生成长达10万碱基对的噬菌体基因组片段，并预测必需基因，具有重要的学术和应用价值。

🎯

🔎

megaDNA模型的推出为噬菌体基因组的研究提供了新的工具，能够生成与真实基因组高度相似的DNA序列。这一技术不仅有助于基因组注释，还能在基因功能设计中发挥重要作用，推动生物技术和医学研究的发展。

megaDNA模型在必需基因的预测上展现出显著优势，能够在无需额外训练的情况下进行准确预测。这一特性大大提高了基因功能研究的效率，尤其是在处理大量噬菌体基因组时，能够节省大量实验资源和时间。

尽管megaDNA模型在生成DNA序列方面取得了突破，但仍面临长序列生成的显存消耗问题。未来的研究需要继续优化模型架构，以支持更长的DNA序列生成，从而实现更复杂的生物功能设计。

❓

megaDNA模型能够生成长达10万碱基对的噬菌体基因组片段，并预测必需基因。

该模型利用无标注的噬菌体基因组数据进行预训练。

主要挑战是生成式语言模型难以应用于长序列，输入序列越长显存消耗越大。

模型能够在不经过任何调整和额外训练的情况下，对必需基因进行计算预测，准确度达到0.86。

生成的基因组序列与真实噬菌体基因组高度相似，具有相似的特征。

研究为噬菌体基因组注释和功能序列设计开辟了新路径，具有广泛的应用前景。

🏷️