小红花·文摘

DigitalOcean推出批量推理功能，旨在降低AI应用的成本和复杂性。用户可通过单一接口提交最多50,000个请求，处理大规模数据任务，节省高达50%的费用。该功能支持多种模型，适用于非实时敏感的高容量工作负载，如SEO优化和支持票据分类。

可扩展且成本高效的人工智能：在DigitalOcean上推出统一批量推理功能

The DigitalOcean Blog · 2026-05-27T17:43:40Z

用户现在可以在Databricks数据智能平台上安全使用Google的Gemini模型，标志着企业AI的重要进展。Databricks提供对顶级LLM的统一访问，用户可利用Gemini进行批量推理、构建智能代理，并在合规环境中安全访问，简化企业数据应用和自动化任务。

Google的Gemini模型在Databricks上

Databricks · 2025-11-05T16:30:00Z

Cody在Anyscale担任软件工程师，探讨如何利用Ray扩展大语言模型的批量推理。他指出，GenAI时代对多模态数据处理的需求日益增长。Anyscale通过结合Ray Core和Ray Data，采用多层次的方法，解决了可扩展性和可靠性问题，提升了大语言模型的推理效率。RayLLM-Batch结合vLLM和Ray Data，提供高效的批量推理解决方案，适用于多种应用场景。

演讲：利用Ray扩展批量推理

InfoQ · 2025-01-31T09:01:00Z

在QConSF 2024上，Cody Yu介绍了Anyscale的Ray如何通过优化任务调度和流式执行，解决批量推理的扩展问题。Ray Data最大化GPU利用率，降低数据移动成本，并与vLLM集成，实现了高效的批量推理，显著缩短处理时间。讨论了连续批处理、管道并行性和超参数调优等技术，以提升系统效率和资源管理。

QCon SF 2024 - 使用Ray扩展批量GPU推理

InfoQ · 2024-11-22T18:26:00Z

随着大型语言模型在AI应用中的重要性提升，开发者面临基础设施管理挑战。kluster.ai提供了一个简便的平台，支持大规模推理，优化成本和效率，适合开发者使用。

大规模访问大型语言模型：kluster.ai的早期访问与500美元计算信用

DEV Community · 2024-11-12T22:37:00Z

多年来，组织积累了大量非结构化文本数据，提取见解很有挑战。大型语言模型提供了可扩展的分析方法，尤其是批量推理。新方案支持在工作流中直接运行批量推理，提高处理速度和效率。Databricks平台简化了工作流，减少复杂性并节省时间。

在 Mosaic AI 模型服务中引入简单、快速且可扩展的大型语言模型批量推理

Databricks · 2024-10-22T15:02:50Z

<<
<
1 (current)
>
>>