量子位 ·

DeepSeek新模型上线！引入DSA新稀疏注意力，还又狙了CUDA一枪

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

DeepSeek最新模型V3.2-Exp上线，采用新稀疏注意力机制DSA，提升长文本推理效率，并开源TileLang和CUDA算子，API价格降至五折，国庆礼包也令人惊喜。

🎯

关键要点

DeepSeek最新模型V3.2-Exp上线，采用新稀疏注意力机制DSA。
新模型提升了长文本推理效率，并开源了TileLang和CUDA算子。
API价格降至五折，国庆礼包令人惊喜。
DeepSeek-V3.2-Exp基于V3.1-Terminus，核心创新是引入DSA稀疏注意力机制。
DSA实现了细粒度注意力机制，推理成本显著低于V3.1-Terminus。
开源的主要算子包括TileLang和CUDA版本，建议使用TileLang进行研究性实验。
智谱的GLM-4.6模型也在研发中，GLM-4.5被标记为“上一代旗舰模型”。

🏷️

继续阅读

派早报：达摩院发布脂肪肝筛查 AI 模型 MAOSS 等
阿里巴巴达摩院与多家医院合作研发的脂肪肝筛查AI模型MAOSS，能够通过CT影像和血清指标精准筛查肝脂肪分期，将高风险患者的检出率提升至52.4%。该研究...
Google Stax：根据您自己的标准测试模型和提示
Google的Stax工具允许个人创建和评估机器学习模型，通常与TensorFlow或Vertex AI协作，专注于模型性能评估。
龙虾最大痛点被官方插件升级！对话永不忘记，GPT和Gemini最强模型都可接入
龙虾发布了OpenClaw测试版，新增上下文管理插件，增强对话记忆能力，支持多种上下文策略，解决长对话中的信息丢失问题。lossless-claw插件可持...
龙虾最佳适配模型，OpenClaw之父给出了推荐
PinchBench榜单显示，中国模型在成功率和速度上表现优异，特别是MiniMax M2.5超越其他模型。尽管价格较高，该榜单为模型选择提供了明确参考。...
提高人工智能模型解释其预测能力
麻省理工学院研究人员开发了一种新方法，利用深度学习模型提取概念，以提高计算机视觉模型的准确性和可解释性。该方法通过限制使用的概念数量，确保选择最相关的概念...
本地Qwen+云模型：OpenClaw真实体验
OpenClaw近期受到关注，吸引用户尝试，但功能被认为有限。作者分享了两个实用场景：自动化博客发布和定时数据抓取工具。国产模型在复杂任务上与Claude...

DeepSeek新模型上线！引入DSA新稀疏注意力，还又狙了CUDA一枪

内容提要

关键要点

标签

继续阅读