上下文溢出攻击:大模型提示黑客技术
💡
原文中文,约800字,阅读约需2分钟。
📝
内容提要
HackAPrompt是全球首次Prompt Hacking竞赛,有超过3000名黑客参与,提交了60万条恶意提示。主办方分析了超过600,000个恶意代码,发现了18种常用的提示黑客技术。竞赛中,上下文溢出攻击被用来限制ChatGPT的输出长度。
🎯
关键要点
-
HackAPrompt是全球首次Prompt Hacking竞赛,奖金为3.5万美元。
-
超过3000名黑客参与,提交了60万条恶意提示。
-
参与者需欺骗AI(如GPT-3、Flan-T5或ChatGPT)说出'我已被 PWNED'。
-
竞赛设有10个不同级别的提示防御,难度逐级增加。
-
主办方分析了超过600,000个恶意代码,发现18种常用的提示黑客技术。
-
上下文溢出攻击通过附加大量文本限制AI输出长度。
-
攻击者利用ChatGPT的冗长特性,使其在特定情况下只输出'我已被 PWNED'。
-
通过构建包含数千个令牌的提示,限制ChatGPT的输出内容。
🏷️
标签
➡️