The New Stack ·

Inflection AI将其LLM推理堆栈从NVIDIA迁移至Intel Gaudi的经验教训

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

Inflection AI将其LLM推理堆栈从NVIDIA GPU迁移至Intel Gaudi加速器，以应对GPU供应短缺和价格上涨。经过几周的调整和优化，性能接近NVIDIA。解决了不支持的操作和执行模式问题，提升了性能，并为未来硬件设计提供了经验。

🎯

❓

Inflection AI迁移至Intel Gaudi是为了应对GPU供应短缺和价格上涨，寻求更灵活的硬件解决方案。

迁移过程中遇到的挑战包括PyTorch部分操作在Intel的SynapseAI后端不被支持，导致性能下降和段错误。

通过重写不支持的操作，Inflection AI实现了近15倍的性能提升，并消除了段错误。

Eager模式的延迟高于NVIDIA，而Lazy模式的性能更差，导致执行速度减慢。

Inflection AI利用Habana的torch-based分析工具，优化了硬件利用率，提升了计算吞吐量。

此次迁移的经验表明，性能与灵活性可以兼得，为未来硬件设计提供了宝贵的见解。

🏷️

首尔的目标：NVIDIA与韩国如何共同构建AI的未来
NVIDIA创始人兼首席执行官黄仁勋访问韩国，强调AI供应链的重要性，并指出韩国在机器人和物理AI领域的潜力。他认为韩国是AI和游戏的中心，未来将有更多投资机会。
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
【Rust日报】2026-06-05 NVIDIA OpenShell：AI Agent 的安全私有运行时
NVIDIA 开源了 OpenShell，一个为 AI Agent 设计的安全沙箱运行时，防止未授权访问和数据泄露。每个 Agent 在独立容器中运行，支...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
SuperX将在Interop Tokyo 2026发布1.6T光模块解决方案
SuperX将在2026年Interop Tokyo发布1.6T光模块解决方案，专为大规模AI训练与推理设计，支持数字信号处理和硅光技术。展会将展示多种A...