小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

Cloudflare and ETH Zurich highlight how AI-driven crawler traffic challenges traditional caching in CDNs and databases. They propose AI-aware strategies including separate cache tiers, adaptive...

Cloudflare and ETH Zurich Outline Approaches for AI-Driven Cache Optimization

InfoQ
InfoQ · 2026-04-08T14:20:00Z

Claude Code的fork子agent通过共享缓存机制优化并行任务成本,确保99%以上的字节一致性,显著降低输入费用。使用Anthropic API的Prompt Cache机制,缓存命中可享受90%折扣,减少并行调用成本。设计强调字节级一致性,确保多个请求共享相同前缀,避免不必要费用。

子Agent省90%费用的Prompt Cache共享机制

Finisky Garden
Finisky Garden · 2026-04-05T12:46:42Z
Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token),在推理时则移除显式的未来视频生成,直接在单次前向中,依托得到的潜在世界表征KV Cache预测动作

研究者探讨了世界模型代理(WAM)在测试阶段是否需要显式未来想象,提出了Fast-WAM架构,训练时保留视频共训练,推理时跳过未来预测。结果显示,视频预测主要在训练阶段提升模型性能,而非在推理阶段生成未来观测。

Fast-WAM——训练时保留视频联合训练(虽同时生成但动作token不看视频token),在推理时则移除显式的未来视频生成,直接在单次前向中,依托得到的潜在世界表征KV Cache预测动作

结构之法 算法之道
结构之法 算法之道 · 2026-03-31T15:57:16Z

PostgreSQL的查询规划器在执行预处理语句时,前五次使用自定义计划,第六次可能切换到通用计划。这种切换可能导致性能下降,特别是在数据分布不均时。用户应注意这一行为,并在必要时强制使用自定义计划以优化性能。

理查德·燕:plan_cache_mode的隐秘行为

Planet PostgreSQL
Planet PostgreSQL · 2026-03-30T08:00:00Z
谷歌新论文把内存股价干崩了!KV cache压缩6倍,网友:硅谷成真了 profile-avatar

谷歌的新算法TurboQuant将AI推理中的KV缓存压缩了6倍,且无损精度,导致美光和西部数据股价大跌。该算法通过极坐标量化和量化JL变换,显著降低内存需求并提升速度,可能会改变AI的内存使用方式。

谷歌新论文把内存股价干崩了!KV cache压缩6倍,网友:硅谷成真了 profile-avatar

量子位
量子位 · 2026-03-26T03:03:26Z
穆罕默德·阿基尔:生产环境中的pg_semantic_cache:标签、驱逐、监控与Python集成

本文介绍了PostgreSQL中的语义缓存,强调如何将其应用于生产环境。通过标签组织缓存条目、监控缓存健康状况和实施驱逐策略,确保数据的新鲜度和有效性。示例展示了如何在Python应用中集成语义缓存,以提高查询效率和降低API调用成本。

穆罕默德·阿基尔:生产环境中的pg_semantic_cache:标签、驱逐、监控与Python集成

Planet PostgreSQL
Planet PostgreSQL · 2026-03-03T04:20:12Z
穆罕默德·阿基尔:PostgreSQL中的语义缓存:pg_semantic_cache实用指南

pg_semantic_cache是一个PostgreSQL扩展,通过语义匹配优化缓存,减少API调用。它利用向量嵌入识别不同表述的相同意图,从而提高缓存命中率,降低延迟和成本,适用于AI应用,显著提升查询效率。

穆罕默德·阿基尔:PostgreSQL中的语义缓存:pg_semantic_cache实用指南

Planet PostgreSQL
Planet PostgreSQL · 2026-02-25T06:03:29Z

华为升级了MindScale算法架构,提升开发效率,解决工作流维护和知识复用等挑战。新算法支持自动生成工作流和优化提示词,显著提高推理效率,并适配国产硬件,推动行业智能化应用。

华为升级行业Agent算法架构!MindScale自己写prompt和工作流,KV Cache减少5.7倍token

量子位
量子位 · 2026-02-12T11:24:58Z

小米MiMo团队推出HySparse混合稀疏注意力架构,显著降低KV Cache的存储和计算开销,提升超长上下文建模效率。通过将“选择”和“缓存”交给Full Attention层,HySparse实现了高效的长距离信息访问,实验结果显示其在多项任务中表现优异。

小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构

量子位
量子位 · 2026-02-07T10:47:34Z
新旗舰处理器AMD 9950X3D2出现在测试数据库中 采用双3D V-Cache L3缓存达到192MB

AMD RYZEN 9 9950X3D2处理器在基准测试中亮相,配备双3D V-Cache,L3缓存达到192MB,解决了调度问题。尽管跑分低于原版,未来有望通过优化提升性能。

新旗舰处理器AMD 9950X3D2出现在测试数据库中 采用双3D V-Cache L3缓存达到192MB

蓝点网
蓝点网 · 2025-12-30T03:52:36Z

patrickmn/go-cache 是一个轻量级、线程安全的内存缓存库,支持过期时间和后台清理,适合缓存临时数据。使用指针存储大型结构体可显著提高性能,指针操作比值操作快约16.6倍。

go 库之 patrickmn/go-cache

LukaChen Blog
LukaChen Blog · 2025-12-29T12:43:00Z
从KV Cache到Prompt Cache的应用

本文探讨了大模型推理中的KV Cache优化,分析了显存瓶颈及其对推理成本的影响。通过比较DeepSeek MLA和vLLM等技术架构,提出了Prompt Cache的应用,以降低推理成本并提升效率。

从KV Cache到Prompt Cache的应用

Shadow Walker 松烟阁
Shadow Walker 松烟阁 · 2025-11-30T12:40:41Z
深入了解Azure Managed Redis:Azure的两种Redis服务指南

Azure提供两种Redis服务:Azure Cache for Redis和Azure Managed Redis。前者推出已久,存在核心和升级迁移问题;后者基于Redis Enterprise软件,提供灵活的性能层,适合开发、生产及AI应用。

深入了解Azure Managed Redis:Azure的两种Redis服务指南

Redis Blog
Redis Blog · 2025-11-30T00:00:00Z
团结 Accelerator (Cache Server)新功能上线,让团队协作更高效

Accelerator(缓存服务器)用于团队协作,存储资产和着色器缓存,避免重复导入。新增Lazy Download特性,首次启动仅下载必要资产,显著减少下载量和时间。更新接口支持细粒度管理和缓存清理,提升开发效率。

团结 Accelerator (Cache Server)新功能上线,让团队协作更高效

实时互动网
实时互动网 · 2025-11-03T10:37:31Z

本文探讨了如何在云原生构建中利用缓存加速开发,介绍了基于Volumes和Docker Cache的缓存机制。通过案例强调选择小基础镜像和使用软链接的最佳实践,以提高依赖安装效率,并提到复用构建缓存的配置方法。

CNB开发与构建基于docker-cache缓存复用的配置实践心得

二丫讲梵
二丫讲梵 · 2025-09-14T16:53:32Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

机器之心
机器之心 · 2025-09-14T05:48:11Z

Prefix Cache 是一种通过检测请求公共前缀来复用计算结果的缓存机制,旨在提升推理性能。使用 Radix Tree 构建缓存时,建议将不变部分放在前面。测试结果显示启用缓存后性能有所提升,但缓存命中率仍需进一步优化。

什么是 Prefix Cache

陈少文的博客
陈少文的博客 · 2025-09-11T00:00:00Z

我在腾讯云的edgeone部署CDN以提升图床访问速度,解决了Cache-Control设置问题,成功将缓存时间调整为30天,显著减少了回源流量。

给图床部署cdn腾讯云的edgeone并排查Cache-Control max-age 3600的问题

Allen Hua 的网络博客
Allen Hua 的网络博客 · 2025-08-19T03:13:00Z
介绍Runtime Cache API

Vercel现已通过API提供Runtime Cache,支持在同一区域内存储和检索数据,允许基于标签的失效控制,用户可通过示例代码使用该API,并在仪表板上监控缓存使用情况。

介绍Runtime Cache API

Vercel News
Vercel News · 2025-08-13T13:00:00Z
基于 Amazon SageMaker 有状态路由优化大规模推理集群下的 KV Cache 复用方案

随着大语言模型(LLMs)的普及,高效部署成为一大挑战。KV Cache通过重用计算结果提升推理效率,但在大规模集群中,随机负载均衡影响缓存复用。Amazon SageMaker的有状态会话路由机制解决了这一问题,确保相似请求路由到同一节点,从而降低延迟,提高系统性能。

基于 Amazon SageMaker 有状态路由优化大规模推理集群下的 KV Cache 复用方案

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-07-08T03:57:35Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码