小红花·文摘

本文提出一种新方法，通过估计随机优化器的稳态分布，综合评估多条优化轨迹，解决深度学习优化算法理解不完整的问题。研究在统计框架下进行公平的基准测试，揭示训练损失与精确度的关系。结果显示，新优化器与SGD及其变体性能相当，但梯度评估次数减少一半。研究建议从单模型方法转向利用优化器随机性质的方法。