阿里云云栖号 ·

KServe + Fluid 加速大模型推理

💡 原文中文，约12500字，阅读约需30分钟。

📝

内容提要

KServe是一个在Kubernetes上的推理平台，专为高度可扩展的场景而构建。它支持现代Serverless推理工作负载，可以在任意框架上提供机器学习模型服务。KServe提供高性能、高度抽象的接口，支持常见的ML框架，并封装了自动缩放、网络、健康检查和服务配置的复杂性。KServe考虑使用Fluid来提供弹性支持，Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，可以服务于云原生场景下的数据密集型应用。阿里云容器服务团队和KServe、Fluid社区一起探索在阿里云Serverless Kubernetes平台上支持大型语言模型的简单、方便、高性能、生产级别的部署。他们提供了一些实践步骤，包括开启KServe on ASM功能、安装ACK-Fluid并开启AI模型缓存加速、部署AI模型推理服务等。最后，他们进行了性能基准测试，发现Fluid可以大幅提升KServe的冷启动速度，特别是在大型语言模型的场景下。

🎯

关键要点

KServe是Kubernetes上的推理平台，支持现代Serverless推理工作负载。
KServe提供高性能、高度抽象的接口，支持多种机器学习框架。
KServe封装了自动缩放、网络、健康检查和服务配置的复杂性。
Fluid是一个开源的Kubernetes原生分布式数据集编排和加速引擎，能为数据密集型应用提供支持。
阿里云团队与KServe、Fluid社区合作，探索在Serverless Kubernetes平台上支持大型语言模型的部署。
KServe在生产实践中面临模型启动时间长、容器镜像拉取时间长和模型更新效率低等挑战。
Fluid可以通过弹性分布式缓存加速模型加载流程，显著提升KServe的冷启动速度。
实践步骤包括创建ACK集群、安装ASM实例、开启KServe on ASM功能等。
通过数据预热和模型推理服务的部署，提升AI模型的访问性能。
性能基准测试显示Fluid在大语言模型场景下大幅提升KServe的冷启动速度。
阿里云容器服务团队致力于优化云原生AI框架以支持大模型推理场景。

🏷️

继续阅读

在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
Multigres v0.1 Alpha：Postgres的操作系统
Multigres v0.1 alpha已发布，旨在为Postgres提供可扩展的操作系统，支持分片、连接池、自动故障转移和备份管理。该版本简化了Post...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...

KServe + Fluid 加速大模型推理

内容提要

关键要点

标签

继续阅读