The Cloudflare Blog ·

提升Workers AI速度与效率：通过KV缓存压缩和推测解码进行性能优化

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

在2023年生日周，推出了Workers AI。为提升速度，进行了硬件更新、KV缓存压缩和推测解码三项升级。新硬件支持更大模型，KV缓存压缩减少内存占用，推测解码加快生成速度，整体提升了性能和效率。

🎯

关键要点

在2023年生日周推出了Workers AI，旨在提升速度。
进行了三项升级：硬件更新、KV缓存压缩和推测解码。
新硬件支持更大模型，提升推理速度。
KV缓存压缩减少内存占用，提高推理效率。
推测解码加快生成速度，允许一次预测多个令牌。
KV缓存是LLM推理的瓶颈，内存限制影响并发生成能力。
PagedAttention技术提高了KV缓存的压缩灵活性。
压缩算法在保持高性能的同时，显著减少缓存大小。
推测解码提高了生成速度，但可能影响结果质量。

❓

延伸问答

Workers AI的推出时间是什么时候？

Workers AI在2023年生日周推出。

Workers AI进行了哪些性能优化？

进行了硬件更新、KV缓存压缩和推测解码三项优化。

KV缓存压缩的主要作用是什么？

KV缓存压缩减少内存占用，提高推理效率。

推测解码如何提高生成速度？

推测解码允许一次预测多个令牌，从而加快生成速度。

PagedAttention技术的优势是什么？

PagedAttention技术提高了KV缓存的压缩灵活性，允许不同注意力头使用不同的压缩率。

使用推测解码有什么潜在的质量影响？

推测解码可能导致生成结果的质量降低，尤其是更激进的推测会影响结果质量。

🏷️

标签

KV缓存压缩 Workers AI ai 性能优化推测解码硬件更新

➡️

继续阅读

WorkBuddy重大升级，AI时代的Office来了
WorkBuddy已成为国内最受欢迎的效率智能体工具之一
字节跳动AI业务组织调整；朱一明减持兆易创新套现44亿元；三星电子半导体业务季度营业利润增长逾250倍 | 日报
（全球TMT 2026年07月30日讯）今日要点：字节跳动AI业务组织调整；朱一明减持兆易创新套现44亿元；月 […]
互联网时代的话题是「连接」，AI时代的话题是「执行」
2013年开始，OTO成为互联网的主要逻辑，随着微信、各类App成为互联网入口的主流，人们对互联网的认知逐渐达到顶峰，最后提炼出两个字：连接。在移动互联网...
AI长上下文阅读124页后仅36%合规，注意力越长规矩越崩
顶级AI在长上下文里塞进124页公司手册后只拿36分，剩下64分全栽在看见规则却偏要硬刚上，长窗口反而成了帮凶？新出的Handbook.md测试集专门测...
大学教授出奇招抓AI作弊，35名学生32人中招
7月28日消息，据科技媒体TechSpot昨天报道，美国奥尔康州立大学历史学教授杰森 · 吉布森（Jason Gibson）最近分享自己抓 AI 作弊的奇...
HBO Max新增AI驱动的发现功能，包括Shorts和对话式搜索
华纳兄弟探索频道正在为 HBO Max 引入全新的 AI 驱动的内容发现工具，包括垂直视频流和对话式搜索体验，旨在帮助订阅用户更轻松地找到节目。首个功能...