Josherich的博客 ·

斯坦福大学CS336课程：从零开始的语言建模 | 2025年春季 | 扩展法则2

💡 原文英文，约13800词，阅读约需51分钟。

📝

内容提要

斯坦福大学CS336课程探讨了大语言模型的扩展法则，重点介绍了MUP方法在模型训练中的应用。MUP通过调整超参数，确保模型扩展时学习率稳定，简化了超参数调优。课程还分析了Cerebrus GPT、MiniCPM和DeepSeek等模型的扩展策略，强调批量大小和学习率的重要性，并通过实验验证这些理论。

🎯

关键要点

斯坦福大学CS336课程讨论大语言模型的扩展法则，重点是MUP方法在模型训练中的应用。
MUP通过调整超参数，确保模型扩展时学习率稳定，简化超参数调优。
课程分析了Cerebrus GPT、MiniCPM和DeepSeek等模型的扩展策略，强调批量大小和学习率的重要性。
Cerebrus GPT模型通过MUP方法实现了更稳定的扩展，验证了MUP的有效性。
MiniCPM模型使用MUP和WSD学习率调度，优化了小模型的训练效果。
DeepSeek模型通过直接估计最佳批量大小和学习率，进行全面的扩展分析。
Llama 3和Hunan模型也进行了扩展法则的分析，得出了不同的参数比率。
Minimax One模型探索了线性时间复杂度的注意力机制，并验证了其性能与传统模型的相似性。
课程强调了在扩展过程中选择合适的超参数和学习率的重要性，提出了MUP的数学基础和应用。

❓

延伸问答

MUP方法在模型训练中有什么作用？

MUP方法通过调整超参数，确保模型扩展时学习率稳定，从而简化了超参数调优的过程。

Cerebrus GPT模型的扩展策略是什么？

Cerebrus GPT模型通过MUP方法实现了更稳定的扩展，强调了批量大小和学习率的重要性。

MiniCPM模型如何优化小模型的训练效果？

MiniCPM模型使用MUP和WSD学习率调度，优化了小模型的训练效果。

DeepSeek模型的扩展分析是如何进行的？

DeepSeek模型通过直接估计最佳批量大小和学习率，进行全面的扩展分析。

Llama 3和Hunan模型在扩展法则分析中有什么发现？

Llama 3和Hunan模型在扩展法则分析中得出了不同的参数比率，显示出扩展法则的多样性。

WSD学习率调度的优势是什么？

WSD学习率调度允许在单次训练中实现数据规模的变化，避免了多次训练的计算成本。

🏷️

继续阅读

写了 10 年 Java/TS，Go 语言终于治好了我的“过度设计”绝症
本文讨论了Go语言如何帮助程序员克服“过度设计综合征”。作者分享了从Java/TypeScript转向Go的经历，强调Go的简单性和可读性使代码更易于理解...
到 2032 年，十之八九的可穿戴设备将具备设备端 AI 功能
边缘AI正在推动可穿戴设备智能化，预计到2032年，80%的可穿戴设备将具备边缘AI功能，市场将创造1万亿美元的营收机会。智能手表和TWS耳机是主要增长动...
《Mixtape》是一幅关于青少年生活的音乐肖像
Playing Mixtape is like playing a video game version of a high school movie. ...
清理电脑所需的应用程序
Hi, friends! Welcome to Installer No. 128, your guide to the best and Verge-i...
我推荐的适合几乎所有人的笔记本电脑
Need a new laptop? It’s a tough decision. If you’re like most people, a lapto...
GitHub推出新Copilot应用，瞄准Claude Code和Codex
GitHub推出了独立的Copilot桌面应用，旨在集中管理编码任务、问题和拉取请求。该应用支持多种操作系统，允许开发者直接从GitHub启动任务并跟踪进...