The DigitalOcean Blog ·

我们如何在DigitalOcean NVIDIA HGX™ B300 GPU Droplets上构建最具性能的DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

DigitalOcean推出DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B，优化了硬件和软件，提升了推理速度和效率，满足现代AI应用的低延迟需求。

🎯

🔎

在现代AI应用中，低延迟推理是用户体验的关键。尤其是在交互式应用中，超过一秒的响应时间会导致用户流失。因此，企业在选择推理平台时，应优先考虑其延迟性能，以确保提供流畅的用户体验。

DigitalOcean通过与NVIDIA的合作，优化了GPU性能和软件架构，显著提升了推理速度。这表明，单靠先进的硬件并不足以实现最佳性能，软件的定制化和优化同样至关重要。企业在部署AI解决方案时，应关注硬件与软件的整体协同。

优化推理性能不仅能提升速度，还能降低企业的运营成本。DigitalOcean的解决方案帮助客户如Workato实现了显著的成本节约和性能提升，表明在选择云服务时，企业应考虑其对成本效益的影响。

❓

DigitalOcean推出了DeepSeek V3.2、MiniMax-M2.5和Qwen 3.5 397B。

DeepSeek V3.2的输出速度达到每秒230个输出标记。

低延迟推理对现代AI应用至关重要，因为它能提供无缝的用户体验，尤其是在交互式应用中。

NVIDIA HGX™ B300 GPU具有288GB HBM3e容量和1.5倍的计算能力，是性能突破的基础。

DigitalOcean通过与Inferact合作，优化了开源vLLM服务框架，并实施了多种技术来提高推理速度。

使用DeepSeek V3.2的企业可以实现更可靠的性能和更低的成本，提供优越的代币经济性和可预测的延迟。

🏷️