本研究提出了一种新方法,优化大型语言模型处理长文本的效率,减少不重要标记的内存和计算负担。研究发现,近标记更为重要,通过层间共享注意力得分,节省了35%的KV缓存。
完成下面两步后,将自动完成登录并继续当前操作。