小红花·文摘

该研究使用奇异学习理论研究了超位叠加玩具模型中的相变，并发现正则k-边形是临界点。研究表明，这些k-边形的局部学习系数决定了贝叶斯后验随训练样本大小的相变，并且这些临界点也决定了SGD训练的行为。研究支持了一种SGD学习轨迹受顺序学习机制影响的猜想。研究发现，TMS中的学习过程可以被表征为在参数空间中从高损失低复杂度区域到低损失高复杂度区域的旅程。