The JetBrains Blog ·

我们对会员推断攻击及防止隐私泄露的研究

💡 原文英文，约4400词，阅读约需16分钟。

📝

内容提要

研究表明，会员推断攻击对大型语言模型（LLMs）构成严重隐私风险。攻击者可以通过模型输出判断特定数据是否用于训练。细调模型因其强记忆能力更易受到攻击。为此，提出了一种新方法EZ MIA，通过分析模型错误预测位置的概率变化来评估记忆泄露风险。研究发现，使用LoRA细调可显著降低隐私泄露风险。

🎯

🔎

会员推断攻击对大型语言模型（LLMs）构成了严重的隐私风险。攻击者可以通过模型的输出判断特定数据是否用于训练，这意味着即使没有直接访问数据，攻击者也能获取敏感信息。因此，开发者在设计和训练模型时，必须重视这种攻击方式，采取有效的防护措施。

细调模型在小数据集上训练时，因其强记忆能力而更易受到会员推断攻击。研究表明，使用LoRA细调可以显著降低隐私泄露风险。这提示开发者在选择细调方法时，应考虑模型的隐私保护能力，避免使用可能导致高风险的细调策略。

EZ MIA方法通过分析模型错误预测位置的概率变化来评估记忆泄露风险，相较于传统方法更具针对性和实用性。这种方法不仅降低了计算成本，还提高了检测的准确性，为隐私审计提供了新的工具，值得研究者和开发者关注。

❓

会员推断攻击是一种隐私攻击，攻击者可以通过模型输出判断特定数据是否用于训练。这对大型语言模型构成严重隐私风险，尤其是在小数据集上训练的细调模型更易受到攻击。

EZ MIA方法通过分析模型错误预测位置的概率变化来评估记忆泄露风险，重点关注模型在错误位置的概率变化。

使用LoRA细调可以显著降低隐私泄露风险，研究发现LoRA在减少记忆泄露方面效果显著，尤其是在较小模型上。

会员推断攻击旨在判断特定数据是否用于训练，而数据提取攻击则试图恢复特定数据。两者都与模型的记忆能力有关，但目的不同。

细调模型因其强记忆能力，尤其是在小数据集上训练时，更容易受到会员推断攻击，因为它们可能会记住训练数据的细节。

可以通过分析模型在错误预测位置的概率变化来测量记忆化程度，EZ MIA方法提供了一种更准确的测量方式。

🏷️