Cloud Native Computing Foundation ·

网易游戏如何在Kubernetes上实现30秒的LLM冷启动

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

在网易游戏，我们发现大语言模型（LLM）推理的关键在于数据传输速度。通过使用Fluid，我们将模型加载时间从42分钟缩短至3分钟，显著提高了推理效率。同时，Fluid支持跨命名空间共享模型，减少内存浪费，简化操作，使得在Kubernetes上进行LLM推理变得可行且高效。

🎯

🔎

在大语言模型（LLM）推理中，数据传输速度是关键因素。网易游戏通过优化模型加载时间，从而显著提高了推理效率。这表明，企业在部署AI模型时，必须重视数据传输的速度和效率，以避免因加载延迟而影响整体性能。

Fluid作为Kubernetes的原生解决方案，提供了模型共享和预取工作流，显著降低了内存浪费和操作复杂性。其跨命名空间的模型共享功能，尤其适合多租户环境，能够有效提升资源利用率，减少重复缓存的开销。

冷启动问题主要由模型加载时间主导，网易游戏通过Fluid的预取工作流将加载时间从42分钟缩短至3分钟。这一变化不仅提升了响应速度，也降低了系统成本，企业在选择技术方案时应关注如何有效解决冷启动问题，以提升服务的可用性。

❓

通过使用Fluid，网易游戏将模型加载时间从42分钟缩短至3分钟，显著提高了推理效率。

Fluid支持跨命名空间共享模型，减少内存浪费，并简化操作，使得多租户平台上维护共享模型成为可能。

主要挑战包括GPU资源稀缺、推理流量不均匀以及冷启动问题，尤其是模型加载速度慢。

Fluid提供了预取工作流，优化了模型加载过程，使得模型可以更快地准备好供推理使用。

Fluid提供了Kubernetes原生的运行时管理和数据抽象，适合长期操作和多租户环境，而Alluxio则更适合简单的缓存需求。

使用Fluid后，模型推理的冷启动时间从42分钟减少到约1分钟，有时甚至低于30秒。

🏷️