TechWeb 全站精华 ·

DeepSeek公布全新论文，梁文锋署名

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

DeepSeek发布论文《条件记忆》，提出将“条件记忆”作为大语言模型的新稀疏维度，以解决知识检索的低效问题。研究表明，结合条件记忆与混合专家（MoE）可显著提升模型性能，特别是在知识推理和代码生成方面。预计新模型DeepSeek V4将应用此技术，进一步增强AI竞争力。

🎯

❓

论文提出将“条件记忆”作为大语言模型的新稀疏维度，以解决知识检索的低效问题。

结合条件记忆与MoE可显著提升模型性能，特别是在知识推理和代码生成方面。

U形扩展定律建议将稀疏参数预算的20%-25%重新分配给Engram，以获得最佳性能。

Engram-27B在知识与推理、通用推理、代码与数学等领域均取得显著提升。

DeepSeek计划于2025年春节前后发布新一代旗舰AI模型DeepSeek V4。

条件记忆技术预计将对AI竞争格局产生重大影响，进一步增强DeepSeek的竞争力。

🏷️

扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋
DeepSeek V4 和 Kimi 2.6 的发布标志着中国开源 AI 的新高峰。V4 引入 Muon 优化器，提升训练效率，并适配华为芯片。这两款产品...
开源AI性价比之王DeepSeek v4发布：1.6T参数仅售3.48美元！
DeepSeek v4发布了Pro和Flash两个版本，分别拥有1.6T和284B参数，价格低至3.48美元和0.28美元。Pro版适合复杂任务，Flas...
继续屠杀全球AI模型：DeepSeek V4 API价格公布起步价仅0.2元/百万输入
深度求索发布了DeepSeek V4模型，起步价为每百万输入0.2元，交付质量接近Claude Opus 4.6。V4系列包括Flash和Pro两种型号，...
最强开源模型 DeepSeek V4 发布，1M上下文，运行成本大降
DeepSeek V4 发布，具备 1M 上下文和显著提升的代码能力，推理性能接近顶尖模型。新注意力机制降低计算需求，支持更多请求。V4 Pro 价格上涨...
PPIO首批上线DeepSeek-V4预览版，1M超长上下文能力开箱即用
DeepSeek-V4预览版正式推出，包含V4-Pro和V4-Flash两个版本，提供百万字上下文和顶尖Agent能力。PPIO成为首批上线平台，致力于为...
DeepSeek-V4发布，华为云首发适配
华为云于4月24日发布并开源DeepSeek-V4模型，该模型支持百万Token超长上下文，提升了推理性能和经济性。新模型已被金山办公、360等企业接入，...