含噪声 SGD 中的隐式偏差:与差分隐私训练的应用
原文约500字/词,阅读约需2分钟。发表于: 。使用小批量随机梯度下降(SGD)训练深度神经网络(DNNs)相对于大批量训练具有卓越的测试性能。这种随机梯度下降的特定噪声结构被认为是导致这种隐式偏差的原因。使用差分隐私(DP)确保 DNN 的训练时,DP-SGD 会向截断梯度添加高斯噪声。然而,大批量训练仍然导致显著的性能下降,这构成了一个重要的挑战,因为强 DP 保证需要使用大规模批次。我们首先展示这种现象也适用于无噪声...
使用小批量随机梯度下降(SGD)训练深度神经网络(DNNs)相对于大批量训练具有卓越的测试性能。大批量训练仍然导致显著的性能下降,这构成了一个重要的挑战。