上下文溢出攻击:大模型提示黑客技术

💡 原文中文,约800字,阅读约需2分钟。
📝

内容提要

HackAPrompt是全球首次Prompt Hacking竞赛,有超过3000名黑客参与,提交了60万条恶意提示。主办方分析了超过600,000个恶意代码,发现了18种常用的提示黑客技术。竞赛中,上下文溢出攻击被用来限制ChatGPT的输出长度。

🎯

关键要点

  • HackAPrompt是全球首次Prompt Hacking竞赛,奖金为3.5万美元。
  • 超过3000名黑客参与,提交了60万条恶意提示。
  • 参与者需欺骗AI(如GPT-3、Flan-T5或ChatGPT)说出'我已被 PWNED'。
  • 竞赛设有10个不同级别的提示防御,难度逐级增加。
  • 主办方分析了超过600,000个恶意代码,发现18种常用的提示黑客技术。
  • 上下文溢出攻击通过附加大量文本限制AI输出长度。
  • 攻击者利用ChatGPT的冗长特性,使其在特定情况下只输出'我已被 PWNED'。
  • 通过构建包含数千个令牌的提示,限制ChatGPT的输出内容。
➡️

继续阅读