我们观察到双重下降现象在CNN、ResNet和变换器中普遍存在:随着模型规模、数据量或训练时间的增加,性能先提升后下降再提升。尽管这一现象常见,但其原因尚不完全清楚,深入研究此现象具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。