量子位 ·

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

研究人员提出了MagicPIG，通过在CPU上应用局部敏感哈希（LSH）技术，显著提升了大模型解码吞吐量1.76至4.99倍，减轻了GPU内存压力，并提高了推理质量和准确率。这项研究探索了异构计算的潜力，有望降低模型部署成本。

🎯

❓

MagicPIG通过在CPU上应用局部敏感哈希（LSH）技术，提升了大模型解码吞吐量1.76至4.99倍。

使用MagicPIG可以减轻GPU内存压力，提高推理质量和准确率，并降低模型部署成本。

KV缓存成为长上下文大模型推理过程中的关键瓶颈，限制了GPU的批量处理能力，导致计算资源无法充分利用。

现有的TopK注意力机制存在显著的质量下降问题，限制了其在高精度场景中的应用。

MagicPIG提出基于采样的注意力估计方法，显著提高了估计的准确性，克服了传统TopK方法的局限。

实验结果显示，MagicPIG在检索和推理任务中比现有技术实现了更高的准确率和吞吐量。

🏷️

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
Microsoft’s Xbox mode is now available for all Windows 11 PCs
Microsoft is now rolling out its Xbox mode to all Windows 11 PCs. The new Xbo...
Meta threatens to pull its apps from New Mexico if forced to make ‘technologically impractical’ changes
Meta says it may be forced to pull Facebook, Instagram, and WhatsApp from New...
With Saros, Housemarque makes a case for doing next-gen games differently
It is generally frowned upon to care too much about appearances. We have a lo...
马斯克诉奥特曼案中迄今揭示的所有证据
马斯克与奥特曼的诉讼揭示了OpenAI早期的内部邮件和文件。马斯克指控奥特曼等人违反慈善信托，质疑OpenAI是否偏离了其造福全人类的初衷。邮件显示，马斯...
Elon Musk confirms xAI used OpenAI’s models to train Grok
In a federal courtroom in California on Thursday, Elon Musk testified that hi...