The New Stack ·

网易游戏如何将大语言模型冷启动时间从42分钟缩短至30秒

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

网易游戏在大语言模型推理中面临挑战，发现数据加载速度至关重要。通过使用Fluid项目，模型加载时间从42分钟缩短至3分钟，显著提升了推理效率并降低了成本。Fluid的共享缓存模型减少了内存浪费，简化了操作，使得在Kubernetes上进行LLM推理成为可能。

🎯

🔎

网易游戏在大语言模型推理中发现，数据加载速度是提升推理效率的关键因素。通过优化数据加载流程，模型加载时间从42分钟缩短至3分钟，显著提高了系统的响应能力。这一变化使得在高峰期能够更好地应对流量波动，提升了用户体验。

Fluid项目通过共享缓存模型，减少了内存浪费并简化了操作。这种高层次的数据编排模型不仅支持多租户环境，还能有效管理模型的访问和共享，降低了平台团队的运维复杂性。对于需要频繁调用相同模型的场景，Fluid显著提升了资源利用率。

在大语言模型推理中，GPU资源的稀缺性和异构性给网易游戏带来了挑战。不同的工作负载需要不同类型的GPU，静态配置导致资源利用率低下。通过Fluid的动态管理，网易游戏能够更灵活地应对不同工作负载的需求，提升整体资源的使用效率。

❓

网易游戏通过使用Fluid项目，将模型加载时间从42分钟缩短至3分钟，显著提升了推理效率。

Fluid项目通过共享缓存模型减少内存浪费，简化操作，使得在Kubernetes上进行LLM推理变得更加可行。

GPU资源稀缺且异构，不同工作负载需要不同类型的GPU，导致资源利用率低和浪费高。

Fluid项目提供了更高层次的数据编排模型，支持在多租户环境中共享模型，减少内存开销。

主要问题包括GPU资源稀缺、推理流量不均匀以及服务器冷启动时模型加载速度慢。

Fluid项目使得模型访问变得快速、一致且可管理，改变了推理架构的可操作性。

🏷️