土法炼钢兴趣小组的博客 ·

15｜Scaled Dot-Product：那个根号 d_k 是怎么来的

💡 原文中文，约20100字，阅读约需48分钟。

📝

内容提要

本文探讨了在Transformer模型中将点积结果除以√d_k的原因。这一操作旨在避免softmax函数饱和，确保梯度有效传播。通过数学推导，证明了点积的方差为d_k，缩放后方差归一化为1，从而保持训练的稳定性。文章还讨论了不同维度下的训练效果及现代优化器如何与√d_k的设计结合，以提升模型性能。

🎯

🔎

在Transformer模型中，√d_k的引入并非随意选择，而是基于严格的数学推导。通过证明点积的方差为d_k，缩放后方差归一化为1，确保了训练过程的稳定性。这一设计避免了softmax函数的饱和，确保了梯度的有效传播，进而提升了模型的训练效果。

不使用√d_k时，模型训练可能会面临梯度消失的问题，导致训练效果不佳。即使在小模型中不缩放也能训练，但在大模型中，√d_k是必不可少的。理解这一点有助于在不同规模的模型中进行超参数的合理调整，确保训练的稳定性和效果。

现代优化器如Muon与√d_k的设计相结合，进一步提升了Transformer模型的性能。Muon通过保持W_q和W_k的正交性，确保了q和k的单位方差，从而维护了√d_k的有效性。这种结合为模型训练提供了更强的稳定性，值得关注。

❓

这是为了避免softmax函数饱和，确保梯度有效传播，从而保持训练的稳定性。

√d_k的选择是基于概率论的严格推导，确保点积的方差归一化为1。

不缩放时，点积的方差会导致softmax输出接近one-hot，造成梯度消失，影响模型训练。

通过假设q和k是独立的d_k维向量，推导得出q·k的方差为d_k。

现代优化器如Muon通过正交化W_q和W_k，维持q和k的单位方差，从而增强训练稳定性。

选择√d_k是因为它最自然，能够将方差归一化到1，保留了统计学中常用的标准化。

🏷️