深度学习中的差分隐私块状梯度混洗

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

小批量随机梯度下降(SGD)训练深度神经网络(DNNs)相对于大批量训练具有卓越的测试性能。使用差分隐私(DP)确保 DNN 的训练时,DP-SGD 会向截断梯度添加高斯噪声。然而,大批量训练仍然导致显著的性能下降,这构成了一个重要的挑战。研究发现,随机性是这种隐式偏差的原因,即使加入了额外的各向同性高斯噪声。因此,大批量 DP-SGD 训练的性能问题根源于 SGD 的相同潜在原则。

🎯

关键要点

  • 小批量随机梯度下降(SGD)训练深度神经网络(DNNs)相对于大批量训练具有卓越的测试性能。

  • 随机梯度下降的特定噪声结构被认为是导致隐式偏差的原因。

  • 使用差分隐私(DP)时,DP-SGD 向截断梯度添加高斯噪声。

  • 大批量训练导致显著的性能下降,这是一个重要挑战。

  • 强 DP 保证需要使用大规模批次。

  • 随机性(而不是截断)是隐式偏差的原因,即使加入额外的各向同性高斯噪声。

  • 在线性最小二乘和对角线线性网络设置中分析无噪声 SGD 的解,揭示隐式偏差被额外噪声放大。

  • 大批量 DP-SGD 训练的性能问题根源于 SGD 的相同潜在原则,为大批量训练策略的改进提供希望。

➡️

继续阅读