小红花·文摘

该研究发现transformers在多步决策任务中存在学习困难，但通过修复自注意力模块中的Softmax函数，可以提高训练速度和准确度。改进后的模型只需完成训练步骤的20%即可达到基线模型的95%。