本研究提出“中心流”思想,利用差分方程分析深度学习优化轨迹的时间平均行为,揭示自适应优化器如何调节步长以更有效地应对损失景观。
研究发现,Adam等自适应优化器在宽神经网络中的特征学习和核行为与SGD相似。作者推导出适用于任何架构的“神经切线”和“最大更新”极限。两个关键突破是开发了NEXORT张量程序语言和引入bra-ket表示法,简化了表达和计算。
完成下面两步后,将自动完成登录并继续当前操作。