小红花·文摘 - 小红花技术领袖俱乐部

EpiCache：用于长对话问答的情节KV缓存管理

EpiCache：用于长对话问答的情节KV缓存管理

Apple Machine Learning Research ·

理解 KV Cache：Attention、P/D 分离与 vLLM 的页式显存管理

理解 KV Cache：Attention、P/D 分离与 vLLM 的页式显存管理

Steins;Lab ·

TurboQuant has recently been launched by Google as a novel algorithmic suite and library for applying advanced quantization and compression to large language models (LLMs) and vector search...

Effective KV Compression with TurboQuant

MachineLearningMastery.com ·

本文介绍了如何使用Cloudflare Worker和KV为静态博客添加浏览量计数功能。作者选择Cloudflare Worker，因其免费额度充足且易于部署。通过简单的前后端代码，作者实现了文章和整站的浏览量统计，并解决了初始值展示问题，提升了博客的互动性。

用 Cloudflare Worker + KV 给静态博客加一个浏览量计数

碎碎念 ·

Rockraft：基于 OpenRaft 与 RocksDB 的强一致 KV 存储框架

Rockraft：基于 OpenRaft 与 RocksDB 的强一致 KV 存储框架

codedump的网络日志 ·

$Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token)，在推理时则移除显式的未来视频生成，直接在单次前向中，依托得到的潜在世界表征KV Cache预测动作$

Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token)，在推理时则移除显式的未来视频生成，直接在单次前向中，依托得到的潜在世界表征KV Cache预测动作

结构之法算法之道 ·

从提示到预测：理解大型语言模型中的预填充、解码和KV缓存

从提示到预测：理解大型语言模型中的预填充、解码和KV缓存

MachineLearningMastery.com ·

谷歌新论文把内存股价干崩了！KV cache压缩6倍，网友：硅谷成真了 profile-avatar

量子位 ·

LLMs中的KV缓存：开发者指南

LLMs中的KV缓存：开发者指南

MachineLearningMastery.com ·

vLLM新KV卸载连接器内部揭秘：智能内存传输以最大化推理吞吐量

vLLM Blog ·

推理的物理学 – 深入探讨KV缓存和提示缓存

推理的物理学 – 深入探讨KV缓存和提示缓存

Shadow Walker 松烟阁 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化数据爬取流程。

将KV Cache预算降至1.5%！他们用进化算法把大模型内存占用砍下来了

机器之心 ·

加速大语言模型推理：降低资源消耗的高效 KV 缓存系统 | 开源日报 No.706

加速大语言模型推理：降低资源消耗的高效 KV 缓存系统 | 开源日报 No.706

开源服务指南 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

重塑注意力机制：GTA登场，KV缓存缩减70%、计算量削减62.5%

机器之心 ·

Cloudflare Workers不仅支持动态请求，还能作为静态文件服务器，结合KV和R2 Storage实现高效、低成本的静态网站托管，适合小项目和特定场景，配置简单，性能优越，支持单页应用。

Cloudflare Workers实战(四)：托管和分发静态文件

又耳笔记 ·

QuantSpec：基于分层量化KV缓存的自我推测解码

QuantSpec：基于分层量化KV缓存的自我推测解码

Apple Machine Learning Research ·

基于 Amazon SageMaker 有状态路由优化大规模推理集群下的 KV Cache 复用方案

基于 Amazon SageMaker 有状态路由优化大规模推理集群下的 KV Cache 复用方案

亚马逊AWS官方博客 ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化数据爬取流程。

8B模型可以超过GPT-4o！并行KV Cache压缩支持的128K长度外推方法ParallelComp

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题

机器之心 ·

本研究解决了在资源受限环境中进行长输入提示的LLM推理时的缓存淘汰问题。提出的KeyDiff方法基于关键相似性，在不依赖于注意力分数的情况下，优化缓存选择，从而最大化关键多样性并提升性能。实验表明，KeyDiff显著提高了在内存和计算预算有限的情况下的推理效率，且在LongBench基准测试中表现出与非淘汰基线相差小于0.04%。

KeDiff：基于关键相似性的KV缓存淘汰方法，用于资源受限环境下的长上下文LLM推理

BriefGPT - AI 论文速递 ·