小红花·文摘

通过实验证明了一个简单的架构能够学习实现解决方案，使用定位机制或语义机制，同时研究了可训练的相同结构和低秩的非线性自注意层的学习情况，并在高维数据和大量训练样本的极限情况下提供了对于全局最小非凸经验损失函数的闭合描述，揭示了随着样本复杂度的增加，从定位机制到语义机制的出现性阶段转变，并通过与线性定位基准的比较证明了点乘注意层使用语义机制在具备足够数据的情况下的优越性。