重新思考 DNA 序列的 BERT 类预训练方法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了一种基于 token dropping 方法的预训练加速技术,可以将 BERT 的预训练成本减少 25%。该方法通过丢弃不重要的 token,使模型更专注于重要的 token,然后让最后一层重新生成完整的序列,计算代价几乎为零。
🎯
关键要点
- 提出了一种基于 token dropping 方法的预训练加速技术。
- 该技术可以将 BERT 的预训练成本减少 25%。
- 方法通过丢弃不重要的 token,使模型专注于重要的 token。
- 最后一层重新生成完整的序列,计算代价几乎为零。
- 该方法不影响下游任务性能。
🏷️
标签
➡️