科学空间|Scientific Spaces ·

让炼丹更科学一些（五）：基于梯度精调学习率

📝

内容提要

前面四篇文章中，我们探讨了SGD从有界域到无界域、从平均损失到终点损失的一系列收敛结论。或许有读者觉得，说来说去都还是SGD，这恐怕是“上古时代”的结果了吧？还真不是！像第四篇《让炼丹更科学一些...