小红花·文摘

大语言模型推理缓存完整指南

MachineLearningMastery.com ·

通过强化学习优化键值缓存的驱逐策略

Apple Machine Learning Research ·

nanovllm-block_manager

plus studio ·

NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS)，实现 8× KV 缓存压缩

实时互动网 ·

本研究提出了一种新方法，通过分析频域中的键值缓存能量分布，利用低频部分进行有效压缩，解决大型语言模型在长文本生成中的上下文窗口扩展问题。实验结果表明，该技术在长上下文任务中显著提高了效率和有效性。

FreqKV：用于高效上下文窗口扩展的频域键值压缩

BriefGPT - AI 论文速递 ·

本文提出了SQuat方法，解决了键值缓存量化中的误差累积问题。该方法通过构建查询张量生成的子空间，确保量化后的键与原始键之间的差异正交，从而减小量化误差对注意力机制的影响。实验结果表明，SQuat在内存占用和处理能力方面优于现有算法。

Subspace-Orthogonal Key-Value Cache Quantization

BriefGPT - AI 论文速递 ·

本文探讨了大语言模型服务中的键值缓存压缩技术，评估现有算法，识别影响计算效率的问题，并提出实际部署所需的工具，以推动该领域技术的发展与应用。

Rethinking Key-Value Cache Compression Techniques in Large Language Model Serving

BriefGPT - AI 论文速递 ·

本研究提出了TokenButler，一个高效的预测器，旨在解决大语言模型中键值缓存的效率瓶颈。该方法能够动态识别重要令牌，提升超过8%的困惑度和下游准确性，具有显著的潜在影响。

TokenButler: Predicting Token Importance

BriefGPT - AI 论文速递 ·

开源 SwiftKV：可将 Cortex AI 上 Meta Llama LLM 的推理成本降低 75%

实时互动网 ·

本研究提出了TreeKV，一种直观且无需训练的键值缓存压缩方法，旨在解决长序列和资源有限环境中的信息保留问题。TreeKV通过树结构实现平滑缓存压缩，在语言建模任务中表现优异，相比基线模型在长上下文中显著提升性能，最佳效率仅需6%的预算。

TreeKV：基于树结构的平滑键值缓存压缩

BriefGPT - AI 论文速递 ·

本研究提出SCOPE框架，优化长上下文生成中的键值缓存，提升预填充和解码阶段的性能，显著改善长输出生成任务的效果。

范围：优化长上下文生成中的键值缓存压缩

BriefGPT - AI 论文速递 ·

本研究提出了基于锚点的LLM (AnLLM) 模型，利用基于锚点的自注意力网络 (AnSAN) 和推理策略，将序列信息压缩到锚点令牌中，减少键/值缓存并提高推理效率。实验证明，AnLLM 在保持可比精度的同时缩减了99%的键/值缓存，并实现了3.5倍的更快推理速度。AnLLM 在计算效率和资源利用方面具有显著改善，展示了锚点式注意力方法在实时推理的潜力。

FocusLLM：通过并行解码扩展大型语言模型的上下文

BriefGPT - AI 论文速递 ·

本研究提出了基于锚点的LLM模型，利用创新的自注意力网络和推理策略，将序列信息压缩到锚点令牌中，减少键/值缓存并提高推理效率。实验证明，AnLLM在保持可比精度的同时缩减了99%的键/值缓存，并实现了3.5倍的更快推理速度。AnLLM在计算效率和资源利用方面具有显著改善，展示了锚点式注意力方法在实时推理中的潜力。

基于锚定的大型语言模型

BriefGPT - AI 论文速递 ·