DEV Community ·

使用vLLM和Ray Serve运行Phi 3

💡 原文英文，约3900词，阅读约需15分钟。

📝

内容提要

模型从训练到生产服务的过程复杂且重要。开发者通常通过REST API与数据库交互，但在处理实时流量时，模型服务面临挑战。推理是模型生成预测的过程，而服务则是将模型提供为服务。使用vLLM和Ray Serve可以有效部署大型语言模型，KubeRay则帮助在Kubernetes上管理这些服务。

🎯

❓

使用vLLM作为推理引擎，Ray Serve作为服务库，可以在Kubernetes上有效部署大型语言模型，如Phi-3。

推理是模型处理输入数据并生成预测的过程，而服务是将模型作为服务提供，处理实时请求。

KubeRay帮助在Kubernetes上管理Ray应用程序，简化Ray Serve的部署过程。

vLLM是一个开源的快速推理和服务库，支持多种模型架构，具有高适应性和监控能力。

可以使用Prometheus和Grafana监控模型性能和服务健康状况，Ray Dashboard也提供实时监控工具。

Ray Serve允许将业务逻辑和模型推理整合在一起，支持多模型服务和流量分配，简化了模型服务的管理。

🏷️

在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
KVarN：华为用于KVCache量化的原生vLLM后端
华为开源的KVarN是一种KV Cache量化技术，通过Hadamard旋转和双轴方差归一化，有效解决大模型推理中的显存瓶颈。该技术在2-bit量化下保持...
论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]
技嘉在COMPUTEX 2026展示多款生活美学主机
(全球TMT2026年6月5日讯)技嘉科技于COMPUTEX 2026展示多款生活美学主机，包含展现简约风格的 […]
技嘉于COMPUTEX 2026以“ENTER INFINITY”为主题开展
(全球TMT2026年6月5日讯)技嘉科技正式于COMPUTEX 2026以“ENTER INFINITY”为 […]