BEND:对 DNA 语言模型在有生物学意义的任务上进行基准测试

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

此研究提出了一种基于统计方法的BPE算法,用于替换基因组语言的k-mer标记。引入了高效的基因组基础模型DNABERT-2和全面的多物种基因组分类数据集GUE。该模型具有可比较的性能,参数和GPU时间用于预训练较少。

🎯

关键要点

  • 研究提出了一种基于统计方法的BPE算法,用于替换基因组语言的k-mer标记。
  • 引入了高效的基因组基础模型DNABERT-2。
  • GUE数据集包含28个数据集和7项任务,适用于多物种基因组分类。
  • DNABERT-2模型具有可比较的性能,参数数量仅为21倍,GPU时间约为56倍用于预训练。
🏷️

标签

➡️

继续阅读