Transformer 中的黄金时刻:多步任务揭示的 Softmax 引发的优化问题
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该研究发现transformers在多步决策任务中存在学习困难,但通过修复自注意力模块中的Softmax函数,可以提高训练速度和准确度。改进后的模型只需完成训练步骤的20%即可达到基线模型的95%。
🎯
关键要点
- 该研究发现transformers在多步决策任务中存在学习困难。
- CNN在研究的任务上没有学习困难。
- transformers在经过数百个epochs的训练后,会突然迅速学会之前无法理解的任务,这被称为Eureka时刻。
- Eureka时刻与Grokking不同,验证和训练损失在迅速改进之前会饱和。
- 问题源于transformers自注意力模块中的Softmax函数。
- 通过修复Softmax函数,可以提高训练速度和准确度。
- 改进后的模型只需完成训练步骤的20%即可达到基线模型的95%。
- 改进模型更有可能学会中间任务,提高最终准确度,并对超参数更稳健。
➡️