DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

DeepSeek最新模型V3.2-Exp上线,采用新稀疏注意力机制DSA,提升长文本推理效率,并开源TileLang和CUDA算子,API价格降至五折,国庆礼包也令人惊喜。

🎯

关键要点

  • DeepSeek最新模型V3.2-Exp上线,采用新稀疏注意力机制DSA。
  • 新模型提升了长文本推理效率,并开源了TileLang和CUDA算子。
  • API价格降至五折,国庆礼包令人惊喜。
  • DeepSeek-V3.2-Exp基于V3.1-Terminus,核心创新是引入DSA稀疏注意力机制。
  • DSA实现了细粒度注意力机制,推理成本显著低于V3.1-Terminus。
  • 开源的主要算子包括TileLang和CUDA版本,建议使用TileLang进行研究性实验。
  • 智谱的GLM-4.6模型也在研发中,GLM-4.5被标记为“上一代旗舰模型”。

延伸问答

DeepSeek-V3.2-Exp模型的主要创新是什么?

DeepSeek-V3.2-Exp模型的主要创新是引入了DeepSeek Sparse Attention(DSA)稀疏注意力机制。

新模型如何提升长文本推理效率?

新模型通过细粒度注意力机制DSA,在几乎不影响模型输出效果的前提下,显著提升了长文本和推理效率。

DeepSeek-V3.2-Exp与V3.1-Terminus相比有什么区别?

DeepSeek-V3.2-Exp在推理成本上显著低于V3.1-Terminus,尤其在解码阶段,但在各领域公开测评集上的表现基本持平。

TileLang和CUDA算子有什么特点?

TileLang和CUDA算子是DeepSeek开源的主要算子,TileLang适合快速原型开发,而CUDA版本则用于实现更高效的计算。

DeepSeek的API价格有什么变化?

DeepSeek的API价格降至五折,现已生效。

智谱的GLM-4.6模型有什么进展?

智谱的GLM-4.6模型正在研发中,GLM-4.5被标记为“上一代旗舰模型”。

➡️

继续阅读