PII-Scope:一个评估大型语言模型训练数据个人信息泄漏的基准

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究表明,大型语言模型容易受到注入攻击。通过 Tensor Trust 游戏玩家生成的庞大数据集,包括 126,000 个攻击和 46,000 个防御示例,是目前最大的人为对抗示例数据集。研究揭示了模型对这些攻击的脆弱性,并指出这些策略的普适性。数据和代码已公开。

🎯

关键要点

  • 大型语言模型(LLMs)在现实世界应用中越来越多,但容易受到恶意注入攻击的风险。
  • 本研究提出了一个由Tensor Trust在线游戏玩家创造的超过126,000个注入攻击和46,000个防御的数据集。
  • 这是目前最大的人为生成的用于指令跟随LLMs的对抗示例数据集。
  • 研究创建了抵抗两种类型注入攻击的基准测试,展示了很多模型对Tensor Trust数据集中的攻击策略脆弱。
  • 一些攻击策略在不同约束条件的部署LLMs应用中也具有普适性。
  • 所有的数据和源代码已在指定网址公布。
➡️

继续阅读