机器之心 ·

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

香港浸会大学与英伟达合作开发了Deepurify工具，用于净化宏基因组组装基因组（MAG）。该工具通过多模态深度语言模型和对比学习，提升了MAG净化效果。在模拟和真实数据集上，Deepurify表现优于现有工具，显著增加了高质量MAG的数量，并在处理复杂生态系统时表现稳健。

🎯

❓

Deepurify工具用于净化宏基因组组装基因组（MAG），通过多模态深度语言模型和对比学习提升MAG的净化效果。

Deepurify在模拟和真实数据集上表现优于现有工具，显著增加了高质量MAG的数量，并在处理复杂生态系统时表现稳健。

Deepurify通过使用GseqFormer和LSTM编码器生成基因组序列及其分类谱系的嵌入，并应用树遍历算法来最大化高质量和中质量MAG的数量。

MAG污染可能严重影响下游分析的结果，因此需要有效的净化工具来提高数据质量。

Deepurify_Iter是一种迭代净化策略，进一步提高了MAG的净化效果，促进来自多个分箱工具的MAG的逐步净化。

Deepurify在土壤、海洋、植物、淡水和人类粪便的宏基因组测序数据集中显著提高了MAG的质量，高质量MAG的数量分别增加了20.0%到45.5%。

🏷️