小红花·文摘

Workers AI 正在构建支持超大语言模型的基础设施，通过硬件优化、预填解码分离、提示缓存和 KV 缓存优化等技术，提高了模型的处理速度和效率。新推出的推测解码技术加速了推理过程，Cloudflare 的专有推理引擎 Infire 进一步提升了多 GPU 支持和启动速度，确保模型高效运行。

The Cloudflare Blog ·

本研究提出了一种新颖的ResQ方法，旨在解决超大语言模型后训练量化中的高量化误差问题。通过主成分分析，ResQ在低秩子空间中优化激活系数，实现最佳混合精度量化，表现优异。

BriefGPT - AI 论文速递 ·