TokenSelect:通过动态令牌级KV缓存选择实现高效长文本推理和长度外推

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本研究提出了TokenSelect方法,旨在解决大语言模型在长上下文推理中的性能下降和计算复杂度问题。通过动态KV缓存选择,该方法显著提升了推理速度,最高可加速23.84倍。

原文中文,约300字,阅读约需1分钟。
阅读原文