小红花·文摘

该文介绍了一种基于 token dropping 方法的预训练加速技术，可以将 BERT 的预训练成本减少 25%。该方法通过丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，计算代价几乎为零。