该论文研究了Transformer预训练中的激活稀疏性,提出了可切换稀疏-密集学习(SSD)方法,能够自适应切换稀疏和密集训练,从而提高预训练效率和推理速度。SSD在相同模型规模下实现了可比性能,降低了预训练成本,推理速度提升可达2倍。
完成下面两步后,将自动完成登录并继续当前操作。