机器之心 ·

CCS 2024 | 如何严格衡量机器学习算法的隐私泄露？ ETH有了新发现

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

机器之心AIxiv专栏报道了张杰的研究，探讨机器学习算法的隐私保护能力。研究指出，许多经验防御方法在隐私泄露评估中存在误区，强调应关注个体隐私而非群体平均。研究提出使用金丝雀样本进行高效评估，结果表明DP-SGD仍是强有力的防御方法，难以被超越。

🎯

🔎

研究强调，隐私评估应关注个体样本的隐私泄露，而非仅仅依赖群体平均值。个别样本的隐私泄露可能接近100%，而整体平均值可能掩盖了这些风险。因此，在设计隐私保护措施时，必须确保每个用户的隐私都得到充分保障。

文章提出使用金丝雀样本进行隐私评估，这种方法能够降低评估成本并提高准确性。金丝雀样本应根据特定防御策略和数据集特性进行选择，确保能够代表最脆弱的样本。这种方法为隐私评估提供了新的思路，值得在实际应用中推广。

尽管差分隐私方法DP-SGD在理论上提供了强有力的隐私保护，但其性能往往受到限制。研究表明，经过调整的DP-SGD在隐私保护上优于许多经验防御方法，显示出其在实际应用中的潜力。然而，仍需关注其在不同数据集和攻击场景下的表现，以确保隐私保护的有效性。

❓

应关注个体隐私而非群体平均，使用金丝雀样本进行高效评估。

差分隐私提供理论上可证明的保护，但往往牺牲模型性能。

个别用户的隐私可能面临严重威胁，少数样本的隐私泄露可能接近100%。

金丝雀样本用于代表最容易受到攻击的样本，降低评估成本并确保准确性。

经过调整后的DP-SGD性能优于所有其他经验防御方法，提供更强的隐私保护。

研究发现五种经验防御方法的隐私泄露程度远超原始评估所显示的水平。

🏷️