SkyWT ·

Gandalf：用 prompt injection 与 AI 大战三百回合！

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

Gandalf是一个AI练习靶场，攻击者通过对AI的问答来猜出密码。每一关AI的防御都会加强，但可以通过讲故事或使用中文等方式规避防御。AI的故事内容与密码生成有关，生成式AI在信息安全方面面临挑战。

🎯

关键要点

Gandalf是一个AI练习靶场，攻击者通过问答猜密码。
每一关AI的防御措施不断加强，攻击者需要使用不同策略。
第一关AI没有防御，直接回答密码。
第二关AI开始拒绝直接回答密码，可以通过讲故事的方式获取。
第三关AI加入关键词检测，不能直接说出密码。
第四关AI接入GPT模型进行二次验证，仍可用中文获取密码。
第五关AI拒绝提及密码相关词语，但可通过讲故事获取密码。
第六关AI结合前两关的防御，仍可通过讲故事获取密码。
第七关AI结合所有防御措施，中文仍可获取密码。
文章提到生成式AI在信息安全方面面临挑战，难以确保信息安全。

🏷️

标签

AI练习靶场 Gandalf ai 密码猜测故事规避防御生成式AI

➡️

继续阅读