该研究发现transformers在多步决策任务中存在学习困难,但通过修复自注意力模块中的Softmax函数,可以提高训练速度和准确度。改进后的模型只需完成训练步骤的20%即可达到基线模型的95%。
完成下面两步后,将自动完成登录并继续当前操作。