小红花·文摘

本文研究了transformer模型在学习算术算法方面的能力，并确定了实现最佳长度泛化的关键因素。通过有针对性的注意力偏置和注意力偏置校准阶段，模型能够自动学习适当的注意力偏置，达到前所未有的完美长度广义。