小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
大语言模型推理缓存完整指南

本文介绍了大语言模型中的推理缓存技术,强调其基本概念和重要性。推理缓存通过存储计算结果,减少重复计算,从而降低成本和延迟。主要有三种缓存类型:键值缓存(KV缓存)、前缀缓存和语义缓存。合理选择和组合这些缓存策略,可以显著提升生产系统的效率。

大语言模型推理缓存完整指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-04-17T12:00:46Z
通过强化学习优化键值缓存的驱逐策略

本文探讨了通过强化学习优化键值缓存的驱逐策略,以提升大型语言模型的推理效率。研究提出了KV Policy框架,利用轻量级RL代理根据未来效用对令牌进行排名,从而显著改善缓存管理效果。KVP在多个基准测试中表现优异,展现了其在适应性KV缓存管理中的潜力。

通过强化学习优化键值缓存的驱逐策略

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-23T00:00:00Z
nanovllm-block_manager

本文介绍了物理块管理器和链式哈希在键值缓存管理中的应用。Block类用于管理缓存块,包含引用计数和哈希值。BlockManager负责分配和释放块,利用链式哈希实现前缀缓存,以优化缓存命中率。通过计算哈希值判断缓存命中,确保高效的内存管理。

nanovllm-block_manager

plus studio
plus studio · 2026-01-22T00:00:00Z
NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩

动态内存稀疏化(DMS)是一种高效的键值缓存压缩方法,能够在不降低模型精度的情况下提升推理性能。研究表明,DMS在多个基准测试中表现优异,实现了8倍的KV缓存压缩,同时保持或提高了模型性能,适合资源受限环境。

NVIDIA 研究人员在 Transformer LLM 中引入动态内存稀疏化 (DMS),实现 8× KV 缓存压缩

实时互动网
实时互动网 · 2025-06-13T02:11:53Z

本研究提出了一种新方法,通过分析频域中的键值缓存能量分布,利用低频部分进行有效压缩,解决大型语言模型在长文本生成中的上下文窗口扩展问题。实验结果表明,该技术在长上下文任务中显著提高了效率和有效性。

FreqKV:用于高效上下文窗口扩展的频域键值压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本文提出了SQuat方法,解决了键值缓存量化中的误差累积问题。该方法通过构建查询张量生成的子空间,确保量化后的键与原始键之间的差异正交,从而减小量化误差对注意力机制的影响。实验结果表明,SQuat在内存占用和处理能力方面优于现有算法。

Subspace-Orthogonal Key-Value Cache Quantization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z

本文探讨了大语言模型服务中的键值缓存压缩技术,评估现有算法,识别影响计算效率的问题,并提出实际部署所需的工具,以推动该领域技术的发展与应用。

Rethinking Key-Value Cache Compression Techniques in Large Language Model Serving

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z

本研究提出了TokenButler,一个高效的预测器,旨在解决大语言模型中键值缓存的效率瓶颈。该方法能够动态识别重要令牌,提升超过8%的困惑度和下游准确性,具有显著的潜在影响。

TokenButler: Predicting Token Importance

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
开源 SwiftKV:可将 Cortex AI 上 Meta Llama LLM 的推理成本降低 75%

大型语言模型(LLM)在人工智能中至关重要,但其高计算成本和延迟限制了应用。Snowflake AI推出的SwiftKV通过键值缓存技术提高推理效率,降低成本,最高可减少75%。该技术与现有框架兼容,支持可持续的AI实践,促进LLM的广泛应用与创新。

开源 SwiftKV:可将 Cortex AI 上 Meta Llama LLM 的推理成本降低 75%

实时互动网
实时互动网 · 2025-01-22T03:17:40Z

本研究提出了TreeKV,一种直观且无需训练的键值缓存压缩方法,旨在解决长序列和资源有限环境中的信息保留问题。TreeKV通过树结构实现平滑缓存压缩,在语言建模任务中表现优异,相比基线模型在长上下文中显著提升性能,最佳效率仅需6%的预算。

TreeKV:基于树结构的平滑键值缓存压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-09T00:00:00Z

本研究提出SCOPE框架,优化长上下文生成中的键值缓存,提升预填充和解码阶段的性能,显著改善长输出生成任务的效果。

范围:优化长上下文生成中的键值缓存压缩

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出了基于锚点的LLM (AnLLM) 模型,利用基于锚点的自注意力网络 (AnSAN) 和推理策略,将序列信息压缩到锚点令牌中,减少键/值缓存并提高推理效率。实验证明,AnLLM 在保持可比精度的同时缩减了99%的键/值缓存,并实现了3.5倍的更快推理速度。AnLLM 在计算效率和资源利用方面具有显著改善,展示了锚点式注意力方法在实时推理的潜力。

FocusLLM:通过并行解码扩展大型语言模型的上下文

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本研究提出了基于锚点的LLM模型,利用创新的自注意力网络和推理策略,将序列信息压缩到锚点令牌中,减少键/值缓存并提高推理效率。实验证明,AnLLM在保持可比精度的同时缩减了99%的键/值缓存,并实现了3.5倍的更快推理速度。AnLLM在计算效率和资源利用方面具有显著改善,展示了锚点式注意力方法在实时推理中的潜力。

基于锚定的大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-12T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码