量子位 ·

DeepSeek不惜代价保住它！V4关键特性被挖出来了

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

DeepSeek V4技术报告强调批次不变性的重要性，确保同一输入在不同批次下输出一致。尽管实现这一目标增加了工程复杂度和性能代价，但提高了模型的可复现性和可调试性。V4通过自研计算程序和严格计算路径，优化了长上下文训练和推理系统，确保模型行为的稳定性。

🎯

🔎

DeepSeek V4在实现批次不变性时，面临显著的工程复杂度和性能代价。尽管这一设计提高了模型的可复现性和可调试性，但也导致GPU利用率和推理速度下降。读者应关注在追求模型稳定性时，如何平衡性能与复杂度的关系。

批次不变性为DeepSeek V4的长上下文训练和推理提供了基础，确保同一输入在不同批次下输出一致。这一特性对于复杂的上下文系统尤为重要，能够减少随机数值扰动，提升模型行为的可控性。关注这一点有助于理解模型在实际应用中的表现。

为了实现批次不变性，DeepSeek V4放弃了一些常见的性能优化策略，如split-KV和split-K。这意味着在某些情况下，模型的性能可能不如其他采用传统优化的模型。读者在评估DeepSeek V4时，应考虑这些取舍对实际应用的影响。

❓

批次不变性是指对于同一个token，无论其在批次中的位置或批次大小，输出都能保持逐比特完全一致。

因为批次不变性提高了模型的可复现性和可调试性，确保预训练、后训练和推理全流程的对齐，保证线上推理结果的稳定性。

实现批次不变性增加了工程复杂度和性能代价，导致GPU利用率和推理速度下降。

DeepSeek V4通过自研计算程序和严格计算路径来优化长上下文训练和推理系统。

批次不变性能够减少随机数值扰动，使模型行为更可控，保证线上推理结果稳定。

为了实现批次不变性，DeepSeek V4放弃了一些常见的性能优化策略，如split-KV和split-K，导致工程复杂度上升。

🏷️