小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
大语言模型推理缓存完整指南

本文介绍了大语言模型中的推理缓存技术,强调其基本概念和重要性。推理缓存通过存储计算结果,减少重复计算,从而降低成本和延迟。主要有三种缓存类型:键值缓存(KV缓存)、前缀缓存和语义缓存。合理选择和组合这些缓存策略,可以显著提升生产系统的效率。

大语言模型推理缓存完整指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-04-17T12:00:46Z
通过强化学习优化键值缓存的驱逐策略

本文探讨了通过强化学习优化键值缓存的驱逐策略,以提升大型语言模型的推理效率。研究提出了KV Policy框架,利用轻量级RL代理根据未来效用对令牌进行排名,从而显著改善缓存管理效果。KVP在多个基准测试中表现优异,展现了其在适应性KV缓存管理中的潜力。

通过强化学习优化键值缓存的驱逐策略

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-23T00:00:00Z
nanovllm-block_manager

本文介绍了物理块管理器和链式哈希在键值缓存管理中的应用。Block类用于管理缓存块,包含引用计数和哈希值。BlockManager负责分配和释放块,利用链式哈希实现前缀缓存,以优化缓存命中率。通过计算哈希值判断缓存命中,确保高效的内存管理。

nanovllm-block_manager

plus studio
plus studio · 2026-01-22T00:00:00Z
NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩

动态内存稀疏化(DMS)是一种高效的键值缓存压缩方法,能够在不降低模型精度的情况下提升推理性能。研究表明,DMS在多个基准测试中表现优异,实现了8倍的KV缓存压缩,同时保持或提高了模型性能,适合资源受限环境。

NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩

实时互动网
实时互动网 · 2025-06-13T02:11:53Z

本研究提出了一种新方法,通过分析频域中的键值缓存能量分布,利用低频部分进行有效压缩,解决大型语言模型在长文本生成中的上下文窗口扩展问题。实验结果表明,该技术在长上下文任务中显著提高了效率和有效性。

FreqKV:用于高效上下文窗口扩展的频域键值压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本文提出了SQuat方法,解决了键值缓存量化中的误差累积问题。该方法通过构建查询张量生成的子空间,确保量化后的键与原始键之间的差异正交,从而减小量化误差对注意力机制的影响。实验结果表明,SQuat在内存占用和处理能力方面优于现有算法。

Subspace-Orthogonal Key-Value Cache Quantization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z

本文探讨了大语言模型服务中的键值缓存压缩技术,评估现有算法,识别影响计算效率的问题,并提出实际部署所需的工具,以推动该领域技术的发展与应用。

Rethinking Key-Value Cache Compression Techniques in Large Language Model Serving

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z

本研究提出了TokenButler,一个高效的预测器,旨在解决大语言模型中键值缓存的效率瓶颈。该方法能够动态识别重要令牌,提升超过8%的困惑度和下游准确性,具有显著的潜在影响。

TokenButler: Predicting Token Importance

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
开源 SwiftKV:可将 Cortex AI 上 Meta Llama LLM 的推理成本降低 75%

大型语言模型(LLM)在人工智能中至关重要,但其高计算成本和延迟限制了应用。Snowflake AI推出的SwiftKV通过键值缓存技术提高推理效率,降低成本,最高可减少75%。该技术与现有框架兼容,支持可持续的AI实践,促进LLM的广泛应用与创新。

开源 SwiftKV:可将 Cortex AI 上 Meta Llama LLM 的推理成本降低 75%

实时互动网
实时互动网 · 2025-01-22T03:17:40Z

本研究提出了TreeKV,一种直观且无需训练的键值缓存压缩方法,旨在解决长序列和资源有限环境中的信息保留问题。TreeKV通过树结构实现平滑缓存压缩,在语言建模任务中表现优异,相比基线模型在长上下文中显著提升性能,最佳效率仅需6%的预算。

TreeKV:基于树结构的平滑键值缓存压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出SCOPE框架,优化长上下文生成中的键值缓存,提升预填充和解码阶段的性能,显著改善长输出生成任务的效果。

SCOPE: Optimizing Key-Value Cache Compression in Long Context Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究探讨了大语言模型中的键值缓存压缩技术,提出了多种量化方法以提高内存效率和推理速度。通过KIVI、LESS、MiKV等算法,显著降低了内存占用并提升了吞吐量,优化了模型性能。这些方法在保持生成质量的同时,实现了高压缩比和更大的上下文长度,为资源受限环境中的大语言模型应用提供了新思路。

零延迟QKV压缩以减轻大型语言模型推理中的KV缓存和网络瓶颈

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-07T00:00:00Z

本文介绍了一种优化大语言模型中键值缓存的方法,通过动态保留重要键值对,减少内存使用高达70%。采用查询感知的KV缓存选择算法,显著提高推理速度,实现了26倍的吞吐量提升,并与现有技术兼容。此外,研究提出了SqueezeAttention和自适应KV缓存,进一步降低内存占用并提高效率,实验表明这些方法在保持性能的同时显著减少了GPU内存消耗。

ThinK:基于查询驱动剪枝实现更轻量级的密钥缓存

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z

本文探讨了通过新型量化技术压缩大型语言模型中的键值缓存(KV缓存),以提高推理效率和降低内存占用。提出的PyramidInfer和PyramidKV方法在保持性能的同时,显著减少了GPU内存使用。研究表明,KV缓存激活是推理过程中的主要内存消耗来源,采用多种量化策略后,模型在处理长文本时表现得到了提升,支持更长的上下文长度。

Palu: 用低秩投影压缩 KV 缓存

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z

本文介绍了优化大型语言模型推理过程中键值缓存的方法,包括KCache、SnapKV和PyramidInfer。这些方法通过量化和自适应缓存技术,显著降低了内存占用和计算开销,同时保持模型性能。实验表明,这些技术在处理长输入序列时有效提升了吞吐量,并减少了GPU内存消耗。

MiniCache:大型语言模型的键值缓存深度维度压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z

本文探讨了大型语言模型中的键值缓存压缩技术,提出了混合精度KV缓存(MiKV)和质量自适应量化方案(QAQ),显著提高了缓存效率和生成质量。研究表明,通过多种量化方法,可以在不同模型上减少内存占用并提升推理性能,支持更长的上下文应用。

ZipCache:准确高效的键值缓存量化与显著令牌识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z

本文介绍了一种新方法,通过优化大型语言模型中的键值缓存,显著降低内存使用并提高推理吞吐量。该方法可减少内存消耗高达70%,提升吞吐量2.2倍,适用于多种模型和任务。采用自适应KV缓存和SqueezeAttention等技术,保持生成质量的同时提高效率。

金字塔推理:金字塔 KV 缓存压缩用于高吞吐率 LLM 推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码