该文介绍了一种基于 token dropping 方法的预训练加速技术,可以将 BERT 的预训练成本减少 25%。该方法通过丢弃不重要的 token,使模型更专注于重要的 token,然后让最后一层重新生成完整的序列,计算代价几乎为零。
完成下面两步后,将自动完成登录并继续当前操作。