小红花·文摘

本研究提出了BitDecoding框架，解决了长上下文大语言模型在自回归解码中因KV缓存扩展带来的内存和计算挑战。该框架通过优化低位KV缓存的解码过程，显著减少去量化开销，实现了高达7.5倍的速度提升，展示了其在长上下文生成中的有效性。

BriefGPT - AI 论文速递 ·

本文提出了一种混合方法，通过结合不同规模的语言模型，提高自回归解码效率并保持高性能。在翻译和摘要任务中，该方法实现了高达4倍的速度提升，性能损失仅为1-2%。研究还探讨了大型语言模型的协作生成、反事实生成及数据增强能力，展示了在多个任务中的优越表现。

BriefGPT - AI 论文速递 ·

研究发现，通过将预训练的自回归模型转换为文本扩散模型，可以在大型语言模型的训练和部署中取得更好的效果。文本扩散模型比自回归解码速度更快，且在多项任务中表现出色。

BriefGPT - AI 论文速递 ·