小红花·文摘

本研究提出了一种新方法，优化大型语言模型处理长文本的效率，减少不重要标记的内存和计算负担。研究发现，近标记更为重要，通过层间共享注意力得分，节省了35%的KV缓存。