高策 ·

在 Kubernetes 中 Autoscale LLM 的实践

💡 原文中文，约7000字，阅读约需17分钟。

📝

内容提要

本文介绍了2023年推出的无服务器大型语言模型推理平台ModelZ及其核心组件OpenModelZ，重点讨论了在Kubernetes上部署LLMs的挑战，如冷启动、自动扩展和负载均衡。用户可通过简单API上传模型，系统自动管理推理服务的生命周期，优化模型和镜像加载以提升性能。

🎯

❓

ModelZ是一个无服务器大型语言模型推理平台，核心组件为OpenModelZ。

在Kubernetes上部署LLMs面临冷启动、自动扩展和负载均衡等挑战。

冷启动问题可以通过优化镜像加载和模型参数加载来加速，使用集群内部署缓存可以避免重复下载。

Autoscaler根据用户设置的扩缩容策略和当前负载情况来调整副本数，确保服务的自动扩缩容。

目前负载均衡采用简单的轮询方式，未来可能需要更复杂的策略以应对kvcache的挑战。

用户可以通过简单API上传模型，系统会自动管理推理服务的生命周期。

🏷️

在Kubernetes中管理Valkey集群
Percona推出Valkey Operator，支持在Kubernetes中管理Valkey数据库。新功能包括配置参数、用户权限管理和TLS加密支持，用...
Kubernetes 初学者指南
Kubernetes 是一种基础设施平台，通过承诺管理系统，确保各部分持续履行承诺，维护整体功能。
人工智能沙箱正迎来其Kubernetes时刻
Anthropic的新模型Mythos能够自主发现并利用操作系统和浏览器的零日漏洞，揭示了当前安全架构的缺陷。大多数安全产品仅生成日志，未能有效提高系统安...
Run an ALTER TABLE for a huge table in Aurora
Recently, we received an alert for one of our Managed Services customers indi...
Henrietta Dombrovskaya: PG DATA 2026. The talks I am most excited about. Part 2
Continuing my review of the upcoming program for PG DATA 2026, started here. ...
【Rust日报】2026-05-01 Rust 原生数据表格组件 uiGrid 发布
Rust 原生数据表格组件 uiGrid 发布一个为 egui 开发的功能丰富的数据表格组件已在 GitHub 开源，采用 MIT 许可证。主要特性 ...