量子位 ·

DeepSeek新模型上线！引入DSA新稀疏注意力，还又狙了CUDA一枪

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

DeepSeek最新模型V3.2-Exp上线，采用新稀疏注意力机制DSA，提升长文本推理效率，并开源TileLang和CUDA算子，API价格降至五折，国庆礼包也令人惊喜。

🎯

🔎

DeepSeek-V3.2-Exp引入的稀疏注意力机制DSA，能够在保持模型输出效果的同时，显著提升长文本推理效率。这一创新使得处理128K长上下文时，推理成本大幅降低，尤其在解码阶段，用户在实际应用中可以期待更快的响应速度和更低的计算资源消耗。

DeepSeek开源的TileLang和CUDA算子为研究者提供了灵活的实验平台。TileLang作为高级语言，便于快速原型开发和调试，而CUDA版本则能实现更高效的计算。建议研究者优先使用TileLang进行实验，以便于快速迭代和验证模型性能。

DeepSeek的API价格降至五折，意味着更多用户能够以更低的成本接触到先进的模型技术。这一举措不仅降低了使用门槛，也可能吸引更多开发者和企业进行应用开发，推动相关技术的普及和创新。

❓

DeepSeek-V3.2-Exp模型的主要创新是引入了DeepSeek Sparse Attention（DSA）稀疏注意力机制。

新模型通过细粒度注意力机制DSA，在几乎不影响模型输出效果的前提下，显著提升了长文本和推理效率。

DeepSeek-V3.2-Exp在推理成本上显著低于V3.1-Terminus，尤其在解码阶段，但在各领域公开测评集上的表现基本持平。

TileLang和CUDA算子是DeepSeek开源的主要算子，TileLang适合快速原型开发，而CUDA版本则用于实现更高效的计算。

DeepSeek的API价格降至五折，现已生效。

智谱的GLM-4.6模型正在研发中，GLM-4.5被标记为“上一代旗舰模型”。

🏷️