InfoQ ·

演讲：利用Ray扩展批量推理

💡 原文英文，约7000词，阅读约需26分钟。

📝

内容提要

Cody在Anyscale担任软件工程师，探讨如何利用Ray扩展大语言模型的批量推理。他指出，GenAI时代对多模态数据处理的需求日益增长。Anyscale通过结合Ray Core和Ray Data，采用多层次的方法，解决了可扩展性和可靠性问题，提升了大语言模型的推理效率。RayLLM-Batch结合vLLM和Ray Data，提供高效的批量推理解决方案，适用于多种应用场景。

🎯

关键要点

Cody在Anyscale担任软件工程师，探讨如何利用Ray扩展大语言模型的批量推理。
GenAI时代对多模态数据处理的需求日益增长，许多公司已开始使用大型语言模型进行在线客户服务。
批量推理的需求增加，主要由于多模态数据源的存在，如摄像头、麦克风和传感器等。
在处理大量原始数据时，扩展性和可靠性成为主要挑战，尤其是在使用公共云的Spot实例时。
Anyscale通过多层次的方法解决了可扩展性和可靠性问题，提升了大语言模型的推理效率。
Ray Core是一个可扩展的通用AI计算引擎，Ray Data是一个高效的可扩展数据处理管道。
Ray Data解决了异构计算、可靠性和复杂生态系统的问题，支持流式执行和故障恢复。
RayLLM-Batch结合了vLLM和Ray Data，提供高效的批量推理解决方案，适用于多种应用场景。
vLLM是一个流行的开源大型语言模型推理框架，支持高吞吐量的推理。
通过连续批处理和分块预填充等技术，RayLLM-Batch能够提高推理效率并降低延迟。
案例研究表明，使用RayLLM-Batch可以显著减少处理时间和成本，适用于大规模批量推理。

❓

延伸问答

Ray如何扩展大语言模型的批量推理？

Ray通过结合Ray Core和Ray Data，采用多层次的方法来扩展大语言模型的批量推理，解决可扩展性和可靠性问题。

在GenAI时代，批量推理的需求为何增加？

批量推理的需求增加主要是由于多模态数据源的存在，如摄像头、麦克风和传感器等，处理这些数据需要高效的推理能力。

Ray Data解决了哪些数据处理中的挑战？

Ray Data解决了异构计算、可靠性和复杂生态系统的问题，支持流式执行和故障恢复。

RayLLM-Batch的主要特点是什么？

RayLLM-Batch结合了vLLM和Ray Data，提供高效的批量推理解决方案，支持故障恢复和自定义工作负载优化。

如何提高大语言模型的推理效率？

通过连续批处理和分块预填充等技术，可以提高大语言模型的推理效率并降低延迟。

使用RayLLM-Batch的案例研究有哪些？

案例研究表明，使用RayLLM-Batch可以显著减少处理时间和成本，适用于大规模批量推理。

🏷️

继续阅读

【Rust日报】2026-06-06 CDC 用 Rust 模型开展埃博拉疫情情景推演
CDC 用 Rust 构建的传播模型开展埃博拉疫情情景推演 CDC（美国疾控中心）在 MMWR 最新报告中披露，应对 2026 年刚果（DRC）和乌干达爆...
Christophe Pettus: All Your GUCs in a Row: data_directory
PostgreSQL solves a bootstrapping puzzle with `data_directory`: how to find t...
大语言模型成功迫使世界模型理论接受审判
大语言模型正在动摇认知科学根基：世界模型可能从一开始就错了过去很多人批评大型语言模型时，总喜欢抓住一个核心问题不放：它没有世界模型。它只是根据前面的文字...
当 AgentGateway 遇上 OpenClaw.NET：企业级智能体基础设施的深度协同实战 - 张善友
2026年，Linux基金会的智能体AI基金会将AgentGateway作为核心项目，提供统一的流量管理方案。AgentGateway与OpenClaw....
李飞飞最新长文揭开世界模型真相：空间智能是下一站
世界模型究竟是什么一文看懂李飞飞眼中的AI下一块大陆：世界模型分类体系详解与空间智能未来世界模型定义混乱推动整个行业重新梳理底层逻辑过去几年，人工智...
传奇黑客 Geohot 炮轰 AI Agent：这是软件工程史上代价最昂贵的灾难！
传奇黑客Geohot批评AI Agent，称其为软件工程史上最昂贵的错误。他认为AI无法有效编写高质量代码，导致开发者提交大量垃圾代码，影响系统稳定性。企...