最近,Allen AI的研究提出了一种层回收技术,通过缓存中间层的输出,使训练和推理速度提高约83%,且性能损失极小。该技术适用于语言模型,实验表明不同任务对层回收的效果不同,建议根据具体任务调整缓存层数。层回收在小数据集上表现更佳,训练仅EncoderHead对小数据集更具抗性。
完成下面两步后,将自动完成登录并继续当前操作。