Josherich的博客 ·

斯坦福CS336：从零开始的语言建模 | 2025年春季 | 架构与超参数

💡 原文英文，约13500词，阅读约需49分钟。

📝

内容提要

斯坦福CS336课程讲解了语言模型架构与超参数，强调实践经验的重要性。课程回顾了变换器的基本结构，探讨了不同架构变体及超参数选择对模型性能的影响。现代模型普遍采用预归一化和RMS归一化，且大多数模型不再使用偏置项。同时，课程讨论了位置嵌入的演变，强调相对位置嵌入的有效性。

🎯

🔎

现代语言模型的架构经历了显著的演变，尤其是在位置嵌入方面。课程强调，相对位置嵌入（rope）已成为主流，取代了绝对位置嵌入。这种转变反映了对模型性能和上下文理解的深入思考，尤其是在处理长文本时。

超参数的选择对模型的训练效果至关重要。课程指出，许多现代模型遵循特定的规则，例如，前馈层的维度通常设定为输入维度的四倍。这种经验法则有助于优化模型性能，避免盲目选择超参数带来的不稳定性。

在现代语言模型中，归一化技术的选择也在不断变化。课程提到，RMS归一化已成为大多数模型的标准选择，因其在训练稳定性和计算效率上表现优越。了解这些技术的演变有助于研究者在设计新模型时做出更明智的决策。

❓

课程主要讲解语言模型的架构与超参数，强调实践经验的重要性。

现代模型普遍采用预归一化和RMS归一化，且大多数模型不再使用偏置项。

相对位置嵌入强调了位置的相对关系，能够更有效地捕捉词之间的相对位置。

超参数选择直接影响模型的训练效果和性能，合理的选择可以提高模型的稳定性和准确性。

课程回顾了变换器的基本结构，并探讨了不同架构变体及其对模型性能的影响。

现代多语言模型的词汇表通常在10万到25万之间。

🏷️