小红花·文摘 - 小红花技术领袖俱乐部

小批量随机梯度下降（SGD）训练深度神经网络（DNNs）相对于大批量训练具有卓越的测试性能。使用差分隐私（DP）确保 DNN 的训练时，DP-SGD 会向截断梯度添加高斯噪声。然而，大批量训练仍然导致显著的性能下降，这构成了一个重要的挑战。研究发现，随机性是这种隐式偏差的原因，即使加入了额外的各向同性高斯噪声。因此，大批量 DP-SGD 训练的性能问题根源于 SGD 的相同潜在原则。

深度学习中的差分隐私块状梯度混洗

BriefGPT - AI 论文速递 ·

小批量随机梯度下降（SGD）训练深度神经网络（DNNs）具有卓越的测试性能。差分隐私（DP）确保 DNN 的训练时，DP-SGD 会向截断梯度添加高斯噪声。大批量训练仍然导致性能下降，因为强 DP 保证需要使用大规模批次。无噪声 SGD 也存在隐式偏差，加入额外噪声会放大偏差。大批量 DP-SGD 训练的性能问题根源于 SGD 的潜在原则，为大批量训练策略的改进提供了希望。

重尾扰动下的噪声 (S) GD 的差分隐私

BriefGPT - AI 论文速递 ·

研究发现，小批量随机梯度下降噪声会导致长时间跨度奖励出现尖锐振荡，但迭代的指数移动平均在减轻梯度方差放大方面非常有效。

SGD 噪声的蝴蝶效应：行为克隆和自回归中的误差放大

BriefGPT - AI 论文速递 ·