The Cloudflare Blog ·

Building the foundation for running extra-large language models

📝

内容提要

Workers AI 正在构建支持超大语言模型的基础设施，通过硬件优化、预填解码分离、提示缓存和 KV 缓存优化等技术，提高了模型的处理速度和效率。新推出的推测解码技术加速了推理过程，Cloudflare 的专有推理引擎 Infire 进一步提升了多 GPU 支持和启动速度，确保模型高效运行。

🎯

❓

Workers AI 通过硬件优化、预填解码分离、提示缓存和 KV 缓存优化等技术来提升超大语言模型的处理速度和效率。

推测解码技术通过使用较小的草稿模型生成候选令牌，从而减少了目标模型的计算负担，加速了推理过程。

Infire 是一个专有推理引擎，支持多 GPU，能够在短时间内启动并处理请求，同时优化了内存使用和吞吐量。

KV 缓存优化允许在多个 GPU 之间共享输入张量，提高了缓存命中率，从而提升了模型的处理能力和响应速度。

Workers AI 根据用户输入和输出的大小，调整模型配置，以优化输入令牌处理速度或输出令牌生成速度。

通过使用 x-session-affinity 头部，Workers AI 能够高效路由请求，避免重复计算输入张量，从而提高性能和吞吐量。

🏷️

Python Project Setup 2026: uv + Ruff + Ty + Polars
2026年，Python项目设置将更加简化，推荐使用uv（环境管理）、Ruff（代码质量）、Ty（类型检查）和Polars（数据处理）等工具。这些工具集成...
PyPI has completed its second audit
PyPI完成了第二次安全审计，发现14个问题，其中2个高严重性问题已修复。审计由Sovereign Tech Agency资助，Trail of Bits...
Cloudflare’s AI Platform: an inference layer designed for agents
Cloudflare推出AI Gateway，提供统一的推理层，支持通过一个API访问70多个AI模型，简化模型切换和成本管理。新功能包括自动重试和故障转...
Moft adds a tracker and shutter button to its magnetic tripod wallet
Moft推出了一款名为Trackable Tripod Wallet的新型MagSafe钱包。该钱包可折叠成三脚架，支持Apple的Find My网络追踪...
Anthropic lays down identity verification on Claude
Anthropic正在为Claude推出身份验证功能，要求用户提供有效的政府签发身份证明和自拍照，以防止滥用和遵守法律要求。此措施主要针对违反使用政策的用...
Why A Goat?
Percona Operator for PostgreSQL 2.9.0版本发布，默认支持PostgreSQL 18，新增PVC快照备份和LDAP支持等功能。