本文探讨了一种在k个步骤中随机均匀使用用户数据的采样方案,该方案在差分隐私优化和高维私有聚合中表现出优于标准泊松采样的效用。研究表明,随机分配的隐私损失分布可以高效计算,并且在训练DP-SGD时,其隐私效用权衡至少与泊松子采样相当。此外,本文开发了新的隐私损失核算工具,扩展了对子采样的准确核算。
本文提出了一种名为FFT增强卡尔曼滤波器(FFTKF)的差分隐私优化方法,旨在解决DP-SGD中噪声导致模型效用下降的问题。FFTKF结合频域噪声塑形与卡尔曼滤波,提升了梯度质量,保持了差分隐私保证,显著提高了测试准确性。
本研究探讨了DP-SGD训练中噪声对梯度方向的负面影响,提出了几何扰动策略GeoDP,显著提高模型效率,减少方向噪声,同时确保隐私保护。实验结果表明,该方法在多个数据集和模型上均有效。
机器之心AIxiv专栏报道了张杰的研究,探讨机器学习算法的隐私保护能力。研究指出,许多经验防御方法在隐私泄露评估中存在误区,强调应关注个体隐私而非群体平均。研究提出使用金丝雀样本进行高效评估,结果表明DP-SGD仍是强有力的防御方法,难以被超越。
本研究探讨了DP-SGD超参数对隐私保护机器学习算法性能的影响,揭示了剪切阈值与学习率之间的关系,并量化了其重要性,为优化隐私与效用的权衡提供了新思路。
本文介绍了一种新的Rényi差分隐私(RDP)界限,适用于DP-SGD变体。该界限适用于不假设凸性、平滑性或Lipschitz连续性的损失函数,并且假设DP-SGD的步长相对较小且损失函数是弱凸的。界限在目标函数的弱凸参数趋近于零时趋于以前建立的凸界限。对于非Lipschitz平滑的损失函数,提供了一种随着DP-SGD迭代次数的扩展良好的界限。
通过实证研究,调查了DP-SGD和PATE在防止后门攻击方面的有效性,并首次检验了PATE在文献中的作用。实验揭示了超参数和训练数据集中后门数量对DP算法成功的影响。提出了Label-DP作为DP-SGD和PATE的更快、更准确的替代方法。准确的超参数调整可以使Label-DP在防御后门攻击并保持模型准确性方面更有效。
研究发现,批量大小对DP-SGD中的总梯度方差有影响。子抽样引起的方差随批量大小增加而减小,大批量可以减小有效总梯度方差。实验证实了渐近区域的相关性,并发现总梯度方差随大批量增加而进一步减小。找到了大批量同样可以减小DP-SGD迭代的有效随机噪声方差的条件。
通过使用预训练的语言模型、非标准化超参数和fine-tuning目标结合DP优化技术,可以在中等规模的语料库上获得胜过强基线和同一隐私预算下的DP-trained模型的NLP模型。同时,提出了一种内存节省技术来解决在大型Transformers上运行DP-SGD的计算难题,该技术可以使得clip在DP-SGD中运行而无需对模型中的任何线性层实例化每个样本的梯度,成本与非隐私的训练相当,并且有适度的运行时间开销。
本文研究了采用差分隐私保护方法进行深度学习训练,在图像分类任务中取得了新的最高精度。通过调优超参数和利用技巧提高信号传播和收敛速度。证明了过参数化模型的DP-SGD方法可以缩小私有和非私有图像分类的精度差距。
ExpM+NF是一种用于在私有数据上训练具有预定差分隐私保证的机器学习模型的方法。实验结果显示,ExpM+NF在多个分类任务上的准确率超过93%,比DPSGD具有更高的准确性和更好的隐私保护能力。该方法对差分私有机器学习的发展具有重要意义,并提出了未来的研究方向。
该论文研究了单输出节点全连接神经网络的差分隐私随机优化问题,提出了多个算法。研究表明,不同数据维度下可实现超出总体风险的可行性。此外,还研究了具有ReLU激活函数的两层神经网络以及DP-SGD在全连接多层神经网络中的理论保证和参数的作用。
本研究探讨了样本梯度范数与DP-SGD中梯度估计偏差的关系,并提出了Bias-Aware Minimization(BAM)方法,用于降低私有梯度估计器的偏差。实证证据支持了在CIFAR-10、CIFAR-100和ImageNet-32数据集上的隐私-效用权衡。
完成下面两步后,将自动完成登录并继续当前操作。