通过梯度下降研究自注意力机制的隐式偏差,证明了全局收敛并量化了关注图的稀疏化速率,同时分析了自适应步长规则对自注意力收敛速度的加速效果。强化了自注意力与线性逻辑回归中的隐式偏差的联系。
完成下面两步后,将自动完成登录并继续当前操作。