量子位 ·

刚刚，Kimi开源底层推理框架，1小时GitHub揽星1.2k

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

Kimi与清华大学等机构联合开源了大模型推理架构Mooncake，旨在提升推理性能和用户体验。该架构采用分离式设计，优化资源利用，已在GitHub获得1.2k星。Mooncake通过预测负载和早期拒绝策略处理高并发请求，显著提高吞吐量，支持Kimi线上80%以上的流量。

🎯

🔎

Mooncake架构通过分离式设计和以KVCache为中心的调度程序，显著提升了推理性能。其早期拒绝策略能够有效预测系统负载，避免资源浪费，确保高并发请求的处理效率。这种创新设计使得Kimi能够在流量高峰期保持稳定的用户体验。

Kimi与清华大学等机构的合作开源Mooncake，标志着大模型推理架构的创新进程。通过吸引多家企业参与，Mooncake有望推动整个行业向更高效的推理平台发展，促进AI技术的普及与应用。

参与Mooncake开源项目的企业包括阿里云、华为存储等，这些公司在云计算和存储领域具有深厚的技术积累。它们的参与不仅增强了项目的技术实力，也为后续的应用推广提供了强有力的支持。

❓

Mooncake旨在提升推理性能和用户体验，打造高性能内存语义存储的标准接口。

Mooncake采用分离式设计，将预填充集群与解码集群分离，充分利用未充分利用的CPU、DRAM和SSD资源。

早期拒绝策略通过预测系统负载，避免在资源不足时处理请求，从而减少无效资源占用和延迟。

在某些模拟场景中，Mooncake可以实现高达525%的吞吐量提升，同时满足服务级别目标。

Kimi与清华大学、阿里云、华为存储、面壁智能、趋境科技等机构联合开源Mooncake。

开源项目吸引了多家企业和研究机构参与，包括AISoft、阿里云、华为存储等。

🏷️