TokenSelect:通过动态令牌级KV缓存选择实现高效长文本推理和长度外推
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对大语言模型在长上下文推理中的性能下降和计算复杂度过高的问题,提出了一种名为TokenSelect的训练无关方法。其核心在于利用令牌级别的查询-键点积来进行动态的KV缓存选择,从而在保持准确性的同时,大幅提高推理速度,评估结果显示在注意力计算中实现了最高23.84倍的加速。
本研究提出了TokenSelect方法,旨在解决大语言模型在长上下文推理中的性能下降和计算复杂度问题。通过动态KV缓存选择,该方法显著提升了推理速度,最高可加速23.84倍。