小批量随机梯度下降(SGD)训练深度神经网络(DNNs)相对于大批量训练具有卓越的测试性能。使用差分隐私(DP)确保 DNN 的训练时,DP-SGD 会向截断梯度添加高斯噪声。然而,大批量训练仍然导致显著的性能下降,这构成了一个重要的挑战。研究发现,随机性是这种隐式偏差的原因,即使加入了额外的各向同性高斯噪声。因此,大批量 DP-SGD 训练的性能问题根源于 SGD 的相同潜在原则。
小批量随机梯度下降(SGD)训练深度神经网络(DNNs)具有卓越的测试性能。差分隐私(DP)确保 DNN 的训练时,DP-SGD 会向截断梯度添加高斯噪声。大批量训练仍然导致性能下降,因为强 DP 保证需要使用大规模批次。无噪声 SGD 也存在隐式偏差,加入额外噪声会放大偏差。大批量 DP-SGD 训练的性能问题根源于 SGD 的潜在原则,为大批量训练策略的改进提供了希望。
研究发现,小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡,但迭代的指数移动平均在减轻梯度方差放大方面非常有效。
完成下面两步后,将自动完成登录并继续当前操作。