DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
💡
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
DeepSeek最新模型V3.2-Exp上线,采用新稀疏注意力机制DSA,提升长文本推理效率,并开源TileLang和CUDA算子,API价格降至五折,国庆礼包也令人惊喜。
🎯
关键要点
- DeepSeek最新模型V3.2-Exp上线,采用新稀疏注意力机制DSA。
- 新模型提升了长文本推理效率,并开源了TileLang和CUDA算子。
- API价格降至五折,国庆礼包令人惊喜。
- DeepSeek-V3.2-Exp基于V3.1-Terminus,核心创新是引入DSA稀疏注意力机制。
- DSA实现了细粒度注意力机制,推理成本显著低于V3.1-Terminus。
- 开源的主要算子包括TileLang和CUDA版本,建议使用TileLang进行研究性实验。
- 智谱的GLM-4.6模型也在研发中,GLM-4.5被标记为“上一代旗舰模型”。
➡️