BEND:对 DNA 语言模型在有生物学意义的任务上进行基准测试
原文中文,约200字,阅读约需1分钟。
📝
内容提要
此研究提出了一种基于统计方法的BPE算法,用于替换基因组语言的k-mer标记。引入了高效的基因组基础模型DNABERT-2和全面的多物种基因组分类数据集GUE。该模型具有可比较的性能,参数和GPU时间用于预训练较少。
🎯
关键要点
-
研究提出了一种基于统计方法的BPE算法,用于替换基因组语言的k-mer标记。
-
引入了高效的基因组基础模型DNABERT-2。
-
GUE数据集包含28个数据集和7项任务,适用于多物种基因组分类。
-
DNABERT-2模型具有可比较的性能,参数数量仅为21倍,GPU时间约为56倍用于预训练。
🏷️