Gandalf:用 prompt injection 与 AI 大战三百回合!

Gandalf:用 prompt injection 与 AI 大战三百回合!

💡 原文英文,约900词,阅读约需4分钟。
📝

内容提要

Gandalf是一个AI练习靶场,攻击者通过对AI的问答来猜出密码。每一关AI的防御都会加强,但可以通过讲故事或使用中文等方式规避防御。AI的故事内容与密码生成有关,生成式AI在信息安全方面面临挑战。

🎯

关键要点

  • Gandalf是一个AI练习靶场,攻击者通过问答猜密码。
  • 每一关AI的防御措施不断加强,攻击者需要使用不同策略。
  • 第一关AI没有防御,直接回答密码。
  • 第二关AI开始拒绝直接回答密码,可以通过讲故事的方式获取。
  • 第三关AI加入关键词检测,不能直接说出密码。
  • 第四关AI接入GPT模型进行二次验证,仍可用中文获取密码。
  • 第五关AI拒绝提及密码相关词语,但可通过讲故事获取密码。
  • 第六关AI结合前两关的防御,仍可通过讲故事获取密码。
  • 第七关AI结合所有防御措施,中文仍可获取密码。
  • 文章提到生成式AI在信息安全方面面临挑战,难以确保信息安全。
➡️

继续阅读