量子位 ·

DeepSeek V4最大的遗憾

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

Engram是DeepSeek与北大联合开源的知识查找模块，旨在提升大模型的记忆与效率。尽管在DeepSeekV4中未出现，Engram的理念和应用仍在发展。研究表明，Engram通过优化Transformer结构，提升了模型的推理能力和知识检索效率，显示出在内存管理和视觉任务中的潜力。

🎯

🔎

尽管DeepSeek V4未包含Engram模块，但其理念仍在不断发展。Engram的设计旨在优化模型的记忆与推理能力，缺失这一模块可能导致V4在处理静态知识时的效率降低，影响整体性能。用户在选择模型时应关注其对知识检索的支持程度。

Engram的理念激发了后续研究者的探索，包括内存池化和无冲突哈希查找等优化方向。这些研究不仅为Engram的应用提供了新的思路，也可能推动下一代模型的进步。关注这些研究动态将有助于理解未来模型的发展趋势。

Engram与专家模型（MoE）在稀疏化计算和存储方面互为补充。Engram通过存储稀疏化提升知识检索效率，而MoE则通过计算稀疏化优化模型性能。理解这两者的关系有助于更好地评估模型在不同任务中的表现。

❓

Engram是DeepSeek与北大联合开源的知识查找模块，旨在提升大模型的记忆与效率。

Engram通过在Transformer中插入查找模块，减少深层网络的计算负担，提升推理能力和知识检索效率。

许多人认为没有Engram使得V4不完整，因为Engram被视为V4架构的基础，能够显著提升模型的效率和推理能力。

Engram与MoE互补，分别在计算和存储上实现稀疏化，Engram专注于存储稀疏化，而MoE则是计算稀疏化。

Engram能够在DRAM中高效运行，利用确定性索引和预取机制，减少计算延迟。

后续研究者探索了内存池化和无冲突哈希查找等优化方向，以进一步提升Engram的性能。

🏷️