小红花·文摘

大模型能“原地”改参数了！字节Seed&北大新论文：测试时推理无需加层重训练

量子位 ·

本研究提出SpeCache方法，解决大语言模型在长文本任务中因序列长度增加导致的键值缓存需求线性增长问题。该方法通过扩展CPU内存卸载KV缓存，动态获取重要KV对，减少CPU-GPU通信延迟，有效降低VRAM使用，避免信息遗忘。实验表明，该方法在长序列上实现了10倍的KV缓存压缩，无需重新训练。

SpeCache: Speculative Key-Value Caching for Efficient Generation of Large Language Models

BriefGPT - AI 论文速递 ·

概述："InfiniRetri：通过基于注意力的检索增强大型语言模型的无限长度上下文能力"

DEV Community ·

Qwen2.5-1M: 支持100万Token上下文的开源Qwen模型

Blog on Qwen ·

Sakana AI推出了一种新型记忆系统——神经注意力记忆模型（NAMMs），旨在优化变换器的信息存储与检索。NAMMs通过进化算法选择保留或丢弃重要信息，显著提高了长文本任务的效率与性能。测试结果显示，NAMMs在多个基准上表现优异，减少了内存使用，并超越了传统记忆策略。

进化型通用变换器记忆

Mia Heidenstedt ·

该研究提出了一种新型Transformer模型，通过注意力层和可学习的记忆令牌显著提升了模型在新任务上的适应性和性能。引入反馈循环和优化内存操作后，模型在处理长文本任务时表现优异，展现了处理无限长序列的潜力。同时，研究探讨了模型大小与性能之间的关系，并提出了基于Hopfield网络的理论框架，揭示了Transformer的记忆过程。

演化通用变压器记忆

BriefGPT - AI 论文速递 ·