小红花·文摘

该研究提出了一种新颖的量化方法PolarQuant，有效解决了大语言模型在处理长距离上下文时KV嵌入缓存占用大量内存的问题。该方法通过极坐标变换将KV缓存压缩超过4.2倍，并在质量评分上优于现有技术。

BriefGPT - AI 论文速递 ·

本研究分析神经自回归语言模型中的上下文化表征，重点关注长距离上下文的编码能力。通过新的度量方法，揭示不同模型在下游任务中的表现差异，并探讨如何通过模型大小和训练配置改善这一能力。

BriefGPT - AI 论文速递 ·