字节Seed与北大合作提出“原地测试时训练”(In-Place TTT),使大模型在推理时无需重训练即可更新参数,从而提高计算效率和适应能力,尤其在长文本任务中效果显著。
本研究提出SpeCache方法,解决大语言模型在长文本任务中因序列长度增加导致的键值缓存需求线性增长问题。该方法通过扩展CPU内存卸载KV缓存,动态获取重要KV对,减少CPU-GPU通信延迟,有效降低VRAM使用,避免信息遗忘。实验表明,该方法在长序列上实现了10倍的KV缓存压缩,无需重新训练。
本文介绍了InfiniRetri,一种新颖的无训练方法,利用大型语言模型的注意力机制,实现理论上无限长度输入的准确检索。该方法通过分析注意力分布与生成答案的关系,显著提升了长文本任务的表现,尤其在问答中表现优异。在Needle-In-a-Haystack测试中实现了100%准确率,并在LongBench等基准测试中显示出显著改进。
Qwen2.5-1M模型正式发布,支持1M上下文长度,包含两个新开源模型。推理框架速度提升3-7倍,长文本任务表现优于128K版本,短文本任务性能保持稳定。模型采用稀疏注意力和长度外推技术,优化推理效率,未来将继续提升性能和应用范围。
该研究提出了一种新型Transformer模型,通过注意力层和可学习的记忆令牌显著提升了模型在新任务上的适应性和性能。引入反馈循环和优化内存操作后,模型在处理长文本任务时表现优异,展现了处理无限长序列的潜力。同时,研究探讨了模型大小与性能之间的关系,并提出了基于Hopfield网络的理论框架,揭示了Transformer的记忆过程。
完成下面两步后,将自动完成登录并继续当前操作。