重新思考 DNA 序列的 BERT 类预训练方法
原文中文,约300字,阅读约需1分钟。发表于: 。通过对 DNA 序列的新叠词标记方法和 RandomMask 技术进行预训练,提高了生命科学领域的下游任务性能。
该文介绍了一种基于 token dropping 方法的预训练加速技术,可以将 BERT 的预训练成本减少 25%。该方法通过丢弃不重要的 token,使模型更专注于重要的 token,然后让最后一层重新生成完整的序列,计算代价几乎为零。
通过对 DNA 序列的新叠词标记方法和 RandomMask 技术进行预训练,提高了生命科学领域的下游任务性能。
该文介绍了一种基于 token dropping 方法的预训练加速技术,可以将 BERT 的预训练成本减少 25%。该方法通过丢弃不重要的 token,使模型更专注于重要的 token,然后让最后一层重新生成完整的序列,计算代价几乎为零。