BEND:对 DNA 语言模型在有生物学意义的任务上进行基准测试
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
此研究提出了一种基于统计方法的BPE算法,用于替换基因组语言的k-mer标记。引入了高效的基因组基础模型DNABERT-2和全面的多物种基因组分类数据集GUE。该模型具有可比较的性能,参数和GPU时间用于预训练较少。
🎯
关键要点
- 研究提出了一种基于统计方法的BPE算法,用于替换基因组语言的k-mer标记。
- 引入了高效的基因组基础模型DNABERT-2。
- GUE数据集包含28个数据集和7项任务,适用于多物种基因组分类。
- DNABERT-2模型具有可比较的性能,参数数量仅为21倍,GPU时间约为56倍用于预训练。
➡️