Transformer 中的黄金时刻:多步任务揭示的 Softmax 引发的优化问题

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该研究发现transformers在多步决策任务中存在学习困难,但通过修复自注意力模块中的Softmax函数,可以提高训练速度和准确度。改进后的模型只需完成训练步骤的20%即可达到基线模型的95%。

🎯

关键要点

  • 该研究发现transformers在多步决策任务中存在学习困难。
  • CNN在研究的任务上没有学习困难。
  • transformers在经过数百个epochs的训练后,会突然迅速学会之前无法理解的任务,这被称为Eureka时刻。
  • Eureka时刻与Grokking不同,验证和训练损失在迅速改进之前会饱和。
  • 问题源于transformers自注意力模块中的Softmax函数。
  • 通过修复Softmax函数,可以提高训练速度和准确度。
  • 改进后的模型只需完成训练步骤的20%即可达到基线模型的95%。
  • 改进模型更有可能学会中间任务,提高最终准确度,并对超参数更稳健。
➡️

继续阅读