本研究探讨了变压器中注意力机制的渐近特性,证明了所有令牌在渐进过程中相互趋同,并验证了理论结果与GPT-2模型实验的一致性。
开发数学方法来表征递归神经网络(RNN)的渐近特性,研究了简化权重矩阵的RNN收敛到无穷维ODE的解与固定点耦合,开发了固定点分析方法用于RNN记忆状态演进,给出了收敛估计。这些方法导致了RNN在数据序列上训练时的神经切向核(NTK)极限。
完成下面两步后,将自动完成登录并继续当前操作。