$DeepSeek-V4——迈向百万token上下文：保留V3的MoE和多token预测机制，提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)$

结构之法算法之道 ·

DeepSeek-V4——迈向百万token上下文：保留V3的MoE和多token预测机制，提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

💡 原文中文，约7100字，阅读约需17分钟。

📝

内容提要

DeepSeek-V4系列模型推出了1.6T和284B参数的两个版本，采用混合注意力架构和流形约束超连接，提升了长上下文处理效率。通过Muon优化器和多项基础设施优化，模型在训练和推理阶段展现出更高的稳定性和效率。预训练后，DeepSeek-V4在多个基准测试中超越前代，设立了新的性能标准。

🎯

🔎

DeepSeek-V4引入的混合注意力机制结合了压缩稀疏注意力和重度压缩注意力，显著提升了长上下文处理的效率。这种机制在处理大规模数据时，能够有效减少计算资源的消耗，尤其适用于需要处理大量信息的应用场景，如自然语言处理和代码生成。

流形约束超连接（mHC）在DeepSeek-V4中增强了传统残差连接的稳定性，确保信息在多层网络中有效传播。通过对残差映射施加流形约束，mHC能够防止数值不稳定性，提升模型在深层网络中的训练表现。这一创新对于构建更深层次的神经网络具有重要意义。

DeepSeek-V4采用Muon优化器，旨在提升训练和推理阶段的收敛速度和稳定性。与传统的AdamW优化器相比，Muon优化器在处理大规模模型时表现出更高的效率，尤其是在参数量巨大的情况下，能够有效降低训练时间，提升模型的整体性能。

❓

DeepSeek-V4引入了混合注意力架构、流形约束超连接和Muon优化器，以提升长上下文处理效率和模型稳定性。

DeepSeek-V4支持一百万tokens的上下文长度。

Muon优化器提升了DeepSeek-V4在训练和推理阶段的收敛速度和稳定性。

DeepSeek-V4在多个基准测试中超越前代，设立了新的性能标准，尤其在推理和长上下文处理任务上表现卓越。

流形约束超连接旨在增强传统残差连接的稳定性和表达能力，确保信号在深层网络中稳定传播。

DeepSeek-V4系列包括1.6T和284B参数的两个版本。

🏷️