嘈杂邻居:针对 LLMs 的高效成员推断攻击
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
大规模评估发现大型语言模型在预训练数据上的成员推理攻击表现较差,成员和非成员之间存在模糊的边界。特定设置易受成员推理攻击影响,成功归因于分布变化。提供代码和数据的基准测试套件支持未来研究。
🎯
关键要点
- 大规模评估发现大型语言模型在预训练数据上的成员推理攻击表现较差。
- 成员和非成员之间存在模糊的边界。
- 特定设置中语言模型易受成员推理攻击影响。
- 成功归因于分布变化,例如成员和非成员来自看似相同的领域但具有不同的时间范围。
- 提供代码和数据,形成统一的基准测试套件,支持未来研究。
➡️