土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】27｜原论文怎么训出来的：8 张 P100、12 小时、warmup 4000 步

💡 原文中文，约28100字，阅读约需67分钟。

📝

内容提要

本文详细解析了Transformer模型的训练配方，包括超参数选择、warmup的重要性、学习率公式设计、dropout和label smoothing的应用。通过对比2017年与现代大模型的训练方法，指出核心训练策略基本保持不变，这些细节对于复现原论文的BLEU分数至关重要。

🎯

关键要点

Transformer模型的训练配方包括超参数选择、warmup的重要性、学习率公式设计、dropout和label smoothing的应用。
2017年原论文公开了一套完整的训练配方，并在WMT2014上取得了当时的SOTA。
学习率公式lr = d^(-0.5) · min(step^(-0.5), step · warmup^(-1.5))的设计是为了适应模型宽度的变化。
warmup_steps设置为4000步是经过实验验证的最佳选择，去掉会导致训练不稳定。
batch by tokens的策略是为了提高GPU利用率，避免因句子长度差异导致的显存浪费。
dropout设置为0.1是为了提供适度的正则化，现代大模型通常不再使用dropout。
label smoothing的应用可以提高模型的泛化能力，尽管可能导致PPL变差，但BLEU得分通常会提高。
现代大模型的训练配方相较于2017年基本保持不变，核心策略依然有效。

❓

延伸问答

Transformer模型的训练配方包括哪些超参数选择？

Transformer模型的训练配方包括学习率、warmup步数、dropout、label smoothing等超参数选择。

为什么warmup_steps设置为4000步？

设置为4000步是经过实验验证的最佳选择，去掉会导致训练不稳定。

学习率公式lr = d^(-0.5) · min(step^(-0.5), step · warmup^(-1.5))的意义是什么？

该公式描述了学习率的变化规律，先线性增长后按1/√step衰减，适应模型宽度的变化。

dropout在Transformer模型中的作用是什么？

dropout用于提供适度的正则化，防止模型过拟合，原论文中设置为0.1。

label smoothing如何影响模型的泛化能力？

label smoothing可以提高模型的泛化能力，尽管可能导致PPL变差，但BLEU得分通常会提高。

现代大模型的训练配方与2017年相比有哪些变化？

现代大模型的训练配方在细节上有所变化，如β₂从0.98调到0.95或0.999，weight decay从0增加到0.1等。

🏷️

继续阅读

AWS认证云从业者学习课程 – 通过这个免费的14小时课程顺利通过考试
AWS认证云从业者考试是进入云开发领域的第一步。freeCodeCamp提供了一个免费的14小时课程，帮助考生准备考试，内容涵盖云计算基础、AWS核心服务...
[利用方法] 安全研究员公开BitLocker零日漏洞可以直接绕过加密机制访问文件
研究人员披露了Microsoft BitLocker加密系统的严重安全漏洞，攻击者只需物理接触设备和一个U盘即可访问加密分区。尽管研究人员曾向微软报告该漏...
[利用方法] 安全研究员公开BitLocker零日漏洞可以直接绕过加密机制访问文件
研究人员发现Microsoft BitLocker加密系统存在严重安全漏洞，攻击者只需物理接触设备和一个U盘即可访问加密分区。尽管漏洞已报告给微软，但未得...
Christophe Pettus: All Your GUCs in a Row: backtrace_functions
Debug PostgreSQL errors by capturing C-level stack traces for specific intern...
耿同学爆火背后的科研打假风险与边界
耿同学因质疑高校论文的学术造假而受到关注。他通过分析数据和图表揭示问题，推动高校回应。然而，打假过程面临情绪化攻击和商业化不透明的风险，可能影响公信力。因...
早报｜OpenAI或将起诉苹果/iPhone 17 Pro官降1000元/影石CEO回应Luna定价贵：5299是美国价格
苹果在天猫推出iPhone 17 Pro系列降价活动，降幅达到1000元。英伟达H100和RTX 5090显卡短暂上架京东。OpenAI与苹果的合作出现裂...