PII-Scope:一个评估大型语言模型训练数据个人信息泄漏的基准
原文中文,约400字,阅读约需1分钟。发表于: 。本文提出了PII-Scope,一个全面的基准,旨在评估针对大型语言模型的个人信息提取攻击的最新方法。研究揭示了影响攻击有效性的多个超参数,并通过实验表明,在先进的对抗策略下,单次查询攻击对个人信息泄漏的低估明显,尤其在微调模型中更为严重。这项工作为应对个人信息提取攻击奠定了坚实的基础。
研究表明,大型语言模型容易受到注入攻击。通过 Tensor Trust 游戏玩家生成的庞大数据集,包括 126,000 个攻击和 46,000 个防御示例,是目前最大的人为对抗示例数据集。研究揭示了模型对这些攻击的脆弱性,并指出这些策略的普适性。数据和代码已公开。