本研究提出Locret框架,通过评估KV缓存单元的重要性,优化大语言模型的长上下文推断,减少GPU内存使用。实验表明,Locret在内存效率和生成质量上优于现有方法,应用潜力广泛。
完成下面两步后,将自动完成登录并继续当前操作。