小红花·文摘

本文详细解析了Transformer模型的训练配方，包括超参数选择、warmup的重要性、学习率公式设计、dropout和label smoothing的应用。通过对比2017年与现代大模型的训练方法，指出核心训练策略基本保持不变，这些细节对于复现原论文的BLEU分数至关重要。

土法炼钢兴趣小组的博客 ·

本研究提出了一种热身蒸馏的方法，解决了教师模型与学生模型之间的分布不匹配问题。该方法通过对齐学生与教师的知识，显著提升了蒸馏性能，实验结果显示在多个基准测试中平均得分提高了至少0.4，数学任务的准确率提高了1.9%。

BriefGPT - AI 论文速递 ·

Warmup is a training technique often used in training deep neural networks. In this post, I will try to explain what is warmup, and how does it work.

jdhao's blog ·