LIama 3+Mamba强强联手!蒸馏到线性RNN,推理速度提升1.6倍

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

Llama 3和Mamba被合并以提高推理速度1.6倍。作者使用蒸馏将Transformer和Mamba模型合并,并提出了推测解码算法来加速推理过程。混合模型在聊天对话任务中达到了与Llama 3相当或更好的性能,并在零-shot NLP任务中优于RNN模型。混合模型的推理速度也得到了显著提升。整个蒸馏过程在八个80G A100 GPU上只花费了不到五天的时间。

🎯

关键要点

  • Llama 3和Mamba合并,推理速度提升1.6倍。
  • 使用蒸馏将Transformer和Mamba模型结合,提出推测解码算法加速推理。
  • 混合模型在聊天对话任务中性能与Llama 3相当或更优。
  • 混合模型在零-shot NLP任务中优于RNN模型。
  • 蒸馏过程在八个80G A100 GPU上完成,耗时不到五天。
  • 蒸馏过程包括伪标签生成、监督微调和人类反馈优化三个阶段。
  • 推测解码算法通过轻量级Draft模型和验证模型提高解码并行性。
  • 混合模型在AlpacaEval和MT-Bench任务上表现优异,1:1混合比例最佳。
  • 混合模型在零样本NLP任务中优于同规模RNN模型。
  • 推测解码算法在Mamba模型上推理速度提升1.7-2.6倍,Zephyr混合模型提升1.8倍,Llama混合模型提升1.6倍。
➡️

继续阅读