InstaDeep开源基因组AI模型Nucleotide Transformers

InstaDeep开源基因组AI模型Nucleotide Transformers

💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

InstaDeep与NVIDIA开源了Nucleotide Transformers(NT),这是一个用于基因组数据的基础模型。最大模型拥有25亿参数,训练于850种物种的遗传序列数据,表现优于其他模型。NT可用于生成嵌入或进行任务特定微调,展示了在基因组应用中的潜力。

🎯

关键要点

  • InstaDeep与NVIDIA开源了Nucleotide Transformers(NT),用于基因组数据的基础模型。
  • 最大模型拥有25亿参数,训练于850种物种的遗传序列数据,表现优于其他模型。
  • NT使用编码器仅的Transformer架构,采用与BERT相同的掩蔽语言模型目标进行预训练。
  • NT可用于生成嵌入或进行任务特定微调,展示了在基因组应用中的潜力。
  • NT在18个下游任务中表现最佳,尤其在启动子和剪接任务上超越其他模型。
  • 多物种数据对理解人类基因组至关重要,NT模型在多物种数据上表现优于仅在人体数据上训练的模型。
  • NT的零-shot学习能力能够预测遗传突变的影响,为理解疾病机制提供新工具。
  • InstaDeep还研究了模型预测遗传突变严重性的能力,发现与严重性有中等相关性。
  • Nucleotide Transformers的代码可在GitHub上获取,模型文件可从Huggingface下载。

延伸问答

Nucleotide Transformers模型的主要特点是什么?

Nucleotide Transformers模型拥有25亿参数,训练于850种物种的遗传序列数据,表现优于其他基因组模型。

Nucleotide Transformers如何进行预训练?

NT使用编码器仅的Transformer架构,采用与BERT相同的掩蔽语言模型目标进行预训练。

Nucleotide Transformers在下游任务中的表现如何?

NT在18个下游任务中表现最佳,尤其在启动子和剪接任务上超越其他模型。

多物种数据对Nucleotide Transformers的影响是什么?

多物种数据对理解人类基因组至关重要,NT在多物种数据上表现优于仅在人体数据上训练的模型。

Nucleotide Transformers的零-shot学习能力有什么应用?

NT的零-shot学习能力能够预测遗传突变的影响,为理解疾病机制提供新工具。

如何获取Nucleotide Transformers的代码和模型文件?

Nucleotide Transformers的代码可在GitHub上获取,模型文件可从Huggingface下载。

➡️

继续阅读