上下文溢出攻击:大模型提示黑客技术
💡
原文中文,约800字,阅读约需2分钟。
📝
内容提要
HackAPrompt是全球首次Prompt Hacking竞赛,有超过3000名黑客参与,提交了60万条恶意提示。主办方分析了超过600,000个恶意代码,发现了18种常用的提示黑客技术。竞赛中,上下文溢出攻击被用来限制ChatGPT的输出长度。
🎯
关键要点
- HackAPrompt是全球首次Prompt Hacking竞赛,奖金为3.5万美元。
- 超过3000名黑客参与,提交了60万条恶意提示。
- 参与者需欺骗AI(如GPT-3、Flan-T5或ChatGPT)说出'我已被 PWNED'。
- 竞赛设有10个不同级别的提示防御,难度逐级增加。
- 主办方分析了超过600,000个恶意代码,发现18种常用的提示黑客技术。
- 上下文溢出攻击通过附加大量文本限制AI输出长度。
- 攻击者利用ChatGPT的冗长特性,使其在特定情况下只输出'我已被 PWNED'。
- 通过构建包含数千个令牌的提示,限制ChatGPT的输出内容。
🏷️
标签
➡️