小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了如何使用Cloudflare Worker和KV为静态博客添加浏览量计数功能。作者选择Cloudflare Worker,因其免费额度充足且易于部署。通过简单的前后端代码,作者实现了文章和整站的浏览量统计,并解决了初始值展示问题,提升了博客的互动性。

用 Cloudflare Worker + KV 给静态博客加一个浏览量计数

碎碎念
碎碎念 · 2026-04-19T15:00:00Z
Rockraft:基于 OpenRaft 与 RocksDB 的强一致 KV 存储框架

Redis协议已成为key-value存储的标准。为实现强一致性,作者创建了coredb项目,采用Raft算法和RocksDB。Rockraft框架解耦核心逻辑,支持开发者构建强一致性存储系统,使用Rust开发,具备高性能和安全性,支持条件事务,持续进化中。

Rockraft:基于 OpenRaft 与 RocksDB 的强一致 KV 存储框架

codedump的网络日志
codedump的网络日志 · 2026-04-12T01:59:41Z
Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token),在推理时则移除显式的未来视频生成,直接在单次前向中,依托得到的潜在世界表征KV Cache预测动作

研究者探讨了世界模型代理(WAM)在测试阶段是否需要显式未来想象,提出了Fast-WAM架构,训练时保留视频共训练,推理时跳过未来预测。结果显示,视频预测主要在训练阶段提升模型性能,而非在推理阶段生成未来观测。

Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token),在推理时则移除显式的未来视频生成,直接在单次前向中,依托得到的潜在世界表征KV Cache预测动作

结构之法 算法之道
结构之法 算法之道 · 2026-03-31T15:57:16Z
从提示到预测:理解大型语言模型中的预填充、解码和KV缓存

本文介绍了大型语言模型(LLM)推理的两个阶段:预填充和解码。预填充阶段通过并行处理整个提示,计算并存储每个令牌的键(K)和值(V)。解码阶段逐个生成令牌,使用新令牌的查询(Q)与缓存的键和值进行计算,从而提高解码效率,特别是在处理长提示和生成响应时。

从提示到预测:理解大型语言模型中的预填充、解码和KV缓存

MachineLearningMastery.com
MachineLearningMastery.com · 2026-03-30T20:47:02Z
谷歌新论文把内存股价干崩了!KV cache压缩6倍,网友:硅谷成真了 profile-avatar

谷歌的新算法TurboQuant将AI推理中的KV缓存压缩了6倍,且无损精度,导致美光和西部数据股价大跌。该算法通过极坐标量化和量化JL变换,显著降低内存需求并提升速度,可能会改变AI的内存使用方式。

谷歌新论文把内存股价干崩了!KV cache压缩6倍,网友:硅谷成真了 profile-avatar

量子位
量子位 · 2026-03-26T03:03:26Z
LLMs中的KV缓存:开发者指南

本文介绍了自回归变换器推理中键值(KV)缓存的作用,如何通过缓存已计算的键和值来消除冗余计算,从而显著提高生成速度,推理速度提升可达3-5倍。尽管内存使用增加,但在实际应用中,这种提升是值得的。理解KV缓存为进一步优化推理提供了基础。

LLMs中的KV缓存:开发者指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-26T14:43:49Z
vLLM新KV卸载连接器内部揭秘:智能内存传输以最大化推理吞吐量

vLLM 0.11.0引入KV缓存卸载功能,将缓存转移至CPU内存(DRAM),提升推理吞吐量。通过缓存KV值,降低计算需求,改善请求延迟和每节点吞吐量。新API支持异步加载和存储KV数据,优化GPU与CPU间的数据传输,显著提升性能。

vLLM新KV卸载连接器内部揭秘:智能内存传输以最大化推理吞吐量

vLLM Blog
vLLM Blog · 2026-01-08T00:00:00Z
推理的物理学 – 深入探讨KV缓存和提示缓存

本文分析了KV缓存优化,探讨了DeepSeek的MLA架构如何演变为vLLM和SGLang,强调推理效率在生成AI商业化中的重要性。KV缓存管理成为主要瓶颈,文章还讨论了不同注意力机制对内存带宽的影响,以及低秩压缩和系统软件管理的重要性。

推理的物理学 – 深入探讨KV缓存和提示缓存

Shadow Walker 松烟阁
Shadow Walker 松烟阁 · 2025-12-14T13:46:59Z
EpiCache:用于长对话问答的情节KV缓存管理

EpiCache是一种KV缓存管理框架,专为长对话问答设计,旨在优化在固定内存预算下的缓存增长。通过块状预填充和情节相关的KV压缩,EpiCache提高了准确性,减少了延迟和内存使用,支持高效的多轮交互。

EpiCache:用于长对话问答的情节KV缓存管理

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-23T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

机器之心
机器之心 · 2025-09-14T05:48:11Z
加速大语言模型推理: 降低资源消耗的高效 KV 缓存系统 | 开源日报 No.706

YTSage 是一款基于 PySide6 的 YouTube 视频下载工具,具备多种下载和字幕处理功能。LMCache 提升大语言模型性能,支持高效缓存。creator-docs 提供 Roblox 开发文档,WarpShare 停止维护,Code Racer 是一款多人在线编程游戏。

加速大语言模型推理: 降低资源消耗的高效 KV 缓存系统 | 开源日报 No.706

开源服务指南
开源服务指南 · 2025-08-24T15:35:37Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%

机器之心
机器之心 · 2025-07-22T09:13:33Z

Cloudflare Workers不仅支持动态请求,还能作为静态文件服务器,结合KV和R2 Storage实现高效、低成本的静态网站托管,适合小项目和特定场景,配置简单,性能优越,支持单页应用。

Cloudflare Workers实战(四):托管和分发静态文件

又耳笔记
又耳笔记 · 2025-07-21T02:47:13Z
QuantSpec:基于分层量化KV缓存的自我推测解码

大型语言模型(LLMs)在边缘设备上的应用日益增加,需快速高效地进行长上下文推理。KV缓存是主要瓶颈。为此,提出了QuantSpec框架,采用分层4位量化KV缓存,保持高接受率(>90%),实现约2.5倍的速度提升,并减少内存需求约1.3倍。

QuantSpec:基于分层量化KV缓存的自我推测解码

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-11T00:00:00Z
基于 Amazon SageMaker 有状态路由优化大规模推理集群下的 KV Cache 复用方案

随着大语言模型(LLMs)的普及,高效部署成为一大挑战。KV Cache通过重用计算结果提升推理效率,但在大规模集群中,随机负载均衡影响缓存复用。Amazon SageMaker的有状态会话路由机制解决了这一问题,确保相似请求路由到同一节点,从而降低延迟,提高系统性能。

基于 Amazon SageMaker 有状态路由优化大规模推理集群下的 KV Cache 复用方案

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-07-08T03:57:35Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。

8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp

机器之心
机器之心 · 2025-06-25T07:42:43Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

机器之心
机器之心 · 2025-04-28T05:10:17Z

本研究解决了在资源受限环境中进行长输入提示的LLM推理时的缓存淘汰问题。提出的KeyDiff方法基于关键相似性,在不依赖于注意力分数的情况下,优化缓存选择,从而最大化关键多样性并提升性能。实验表明,KeyDiff显著提高了在内存和计算预算有限的情况下的推理效率,且在LongBench基准测试中表现出与非淘汰基线相差小于0.04%。

KeDiff:基于关键相似性的KV缓存淘汰方法,用于资源受限环境下的长上下文LLM推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z

本研究提出了一个框架,旨在提升大型语言模型在知识密集型任务中的表现。通过结合检索增强生成和自适应注意力评分技术,显著提高了检索内容的利用率和相关性,改善了事实准确性和响应质量。该框架在内存瓶颈、领域特定推理能力及效率与可扩展性方面表现优异。

通过KV缓存和解码,采用策略优化的动态检索增强生成来扩展测试时推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究解决了现有大型语言模型在整合外部知识时的局限性,提出了一种任务感知的键值(KV)缓存压缩方法,能够在零样本或少样本设置下压缩外部知识,显著提高推理效率。实验结果表明,该方法在 LongBench v2 上比 RAG 提高了多达 7 个绝对点的准确性,同时推理延迟从 0.43 秒减少至 0.16 秒,展示了其在广泛知识任务中的优势。

超越 RAG:任务感知的 KV 缓存压缩以实现全面知识推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码