量子位 ·

Kimi新论文：把KVCache玩成新商业模式了

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

研究团队推出了Prefill-as-a-Service（PrFaaS），旨在解决大模型推理中的跨机房调度问题。该架构通过将Prefill计算卸载到专用集群，并利用普通以太网传输KV Cache，显著提升了吞吐量和降低了延迟。实验结果表明，PrFaaS在吞吐量上提升54%，P90延迟降低64%，有效支持长上下文场景。

🎯

关键要点

研究团队推出Prefill-as-a-Service（PrFaaS），旨在解决大模型推理中的跨机房调度问题。
PrFaaS通过将Prefill计算卸载到专用集群，并利用普通以太网传输KV Cache，显著提升了吞吐量和降低了延迟。
实验结果显示，PrFaaS在吞吐量上提升54%，P90延迟降低64%，有效支持长上下文场景。
PrFaaS架构将Prefill和Decode解耦，允许跨城市、跨地域调度，优化了资源利用率。
系统设计包括动态长度阈值t，短请求留在本地处理，长请求则卸载到PrFaaS集群。
研究团队采用了混合前缀缓存池，将KV Cache分为prefix-cache和transfer-cache，以支持高效复用和跨集群传输。
PrFaaS架构的工程有效性通过严格的对照实验得到了验证，确保了跨数据中心KV Cache传输的可行性。

❓

延伸问答

什么是Prefill-as-a-Service（PrFaaS）？

Prefill-as-a-Service（PrFaaS）是一种新型的大模型推理服务架构，旨在通过将Prefill计算卸载到专用集群，解决跨数据中心调度问题。

PrFaaS如何提升大模型推理的性能？

PrFaaS通过将Prefill和Decode解耦，利用普通以太网传输KV Cache，提升了吞吐量54%，并将P90延迟降低64%。

PrFaaS架构的主要组成部分是什么？

PrFaaS架构主要由计算层、网络层和存储层三大子系统组成，分别负责Prefill计算、数据传输和KV Cache管理。

PrFaaS如何处理长上下文请求？

PrFaaS设定动态长度阈值t，短请求留在本地处理，长请求则卸载到专用集群进行Prefill，生成的KV Cache再传回本地进行Decode。

PrFaaS的实验结果如何验证其有效性？

实验结果显示，PrFaaS在吞吐量和延迟方面均有显著提升，且跨数据中心KV Cache传输的带宽占用远低于以太网的上限，确保了可行性。

PrFaaS的设计如何应对资源利用率问题？

PrFaaS通过解耦Prefill和Decode，允许跨地域调度，优化资源利用率，避免了算力和带宽资源的浪费。

🏷️

继续阅读

华为芯片“韬（τ）定律”论文上线：绕开最先进光刻机，也能更强
【TechWeb】5月25日消息，今日，在IEEE国际电路与系统研讨会（ISCAS 2026）上，华为公司董事、半导体业务部总裁何庭波发表了题为《半导体新...
超越聊天机器人：人工智能如何重塑整个商业模式
人工智能正推动企业从简单应用向全面业务转型，融入核心战略。AI改变了商业模式，提升了预测能力和个性化服务。成功企业需关注人员、流程和技术，确保AI与业务目...
蚂蚁灵波LingBot-VA论文被机器人顶会RSS 2026接收，让机器人边推演、边行动
蚂蚁灵波科技与香港科技大学合作的论文《Causal World Modeling for Robot Control》被国际机器人会议RSS 2026接收...
初学者的GitHub：在VS Code中开始使用Git和GitHub
Discover how to use VS Code to interact with GitHub and maintain your project...
GitLab 19.0 trades its string section for a full DevSecOps orchestra
There are orchestras… and then there are mere string, horn, or woodwind secti...
【译文】为什么你的"AI-First"策略很可能是错的
原文：Why Your “AI-First” Strategy Is Probably Wrong 作者：Peter Pang（@intuitiveml）...