Transformer 中的黄金时刻:多步任务揭示的 Softmax 引发的优化问题
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该研究发现transformers在多步决策任务中存在学习困难,但通过修复自注意力模块中的Softmax函数,可以提高训练速度和准确度。改进后的模型只需完成训练步骤的20%即可达到基线模型的95%。
🎯
关键要点
-
该研究发现transformers在多步决策任务中存在学习困难。
-
CNN在研究的任务上没有学习困难。
-
transformers在经过数百个epochs的训练后,会突然迅速学会之前无法理解的任务,这被称为Eureka时刻。
-
Eureka时刻与Grokking不同,验证和训练损失在迅速改进之前会饱和。
-
问题源于transformers自注意力模块中的Softmax函数。
-
通过修复Softmax函数,可以提高训练速度和准确度。
-
改进后的模型只需完成训练步骤的20%即可达到基线模型的95%。
-
改进模型更有可能学会中间任务,提高最终准确度,并对超参数更稳健。
🏷️