小红花·文摘

该研究提出了一种混合方法，通过结合不同规模的语言模型来提高自回归解码的效率。该方法利用预先训练的冻结语言模型来编码提示标记，并使用生成的表示来引导较小的语言模型更高效地生成响应。与LLM相比，该方法在翻译和摘要任务中实现了高达4倍的速度提升，但只有1-2%的性能损失。