The Cloudflare Blog ·

我们如何为Cloudflare的网络构建最高效的推理引擎

💡 原文英文，约2500词，阅读约需9分钟。

📝

内容提要

Cloudflare开发的Infire是一款高效的LLM推理引擎，旨在优化GPU利用率和降低CPU负载。通过动态调度和连续批处理技术，Infire提升了推理速度，支持更多请求，并满足安全需求。与传统vLLM相比，Infire在资源使用上更具优势，未来将支持多GPU和量化功能。

🎯

❓

Infire是一款高效的LLM推理引擎，旨在优化GPU利用率和降低CPU负载。

Infire在资源使用上更具优势，能够在边缘节点更有效地运行推理任务，且CPU使用率显著低于vLLM。

Infire通过动态调度和连续批处理技术提升推理速度，支持更多请求。

Infire的架构包括一个兼容OpenAI的HTTP服务器、一个批处理器和Infire引擎本身。

Infire通过并行处理多个请求来优化批处理，利用内存带宽和缓存。

未来版本的Infire将支持多GPU、量化功能和真正的多租户支持，以进一步提升性能。

🏷️

69个开源AI工具大盘点2026年4月版 - 省下每年5万美金订阅费的开源方案
2026年4月，推荐了69个开源AI工具，包括Ollama、vLLM、LM Studio等，适用于本地运行大模型和推理引擎，帮助用户每年节省高达5万美元的...
Cloudflare IPsec的后量子加密现已普遍可用
Cloudflare宣布其IPsec服务现已支持后量子加密，旨在抵御“先收集后解密”的攻击。该技术采用混合ML-KEM算法，确保与Cisco和Fortin...
代理现在可以创建Cloudflare账户、购买域名并部署应用
代理现在可以代表用户创建Cloudflare账户、购买域名并部署应用，整个过程无需人工干预。通过与Stripe合作的新协议，代理能够快速完成这些任务，简化...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
Cloudflare Announces Agent Memory, a Managed Persistent Memory Service for AI Agents
Cloudflare announced Agent Memory in private beta, a managed service that ext...
弘信电子盈利结构优化，算力业务成为增长核心引擎
弘信电子发布2025年年报与2026年第一季报，显示盈利结构优化。2025年营业收入73.13亿元，同比增长24.47%；净利润1.47亿元，同比增长15...