DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

DeepSeek最新模型V3.2-Exp上线,采用新稀疏注意力机制DSA,提升长文本推理效率,并开源TileLang和CUDA算子,API价格降至五折,国庆礼包也令人惊喜。

🎯

关键要点

  • DeepSeek最新模型V3.2-Exp上线,采用新稀疏注意力机制DSA。
  • 新模型提升了长文本推理效率,并开源了TileLang和CUDA算子。
  • API价格降至五折,国庆礼包令人惊喜。
  • DeepSeek-V3.2-Exp基于V3.1-Terminus,核心创新是引入DSA稀疏注意力机制。
  • DSA实现了细粒度注意力机制,推理成本显著低于V3.1-Terminus。
  • 开源的主要算子包括TileLang和CUDA版本,建议使用TileLang进行研究性实验。
  • 智谱的GLM-4.6模型也在研发中,GLM-4.5被标记为“上一代旗舰模型”。
➡️

继续阅读