InjecAgent:在工具集成的大型语言模型代理中评估间接提示注入
原文中文,约400字,阅读约需1分钟。发表于: 。通过引入 InjecAgent 基准测试,评估 LLM agents 对 IPI attacks 的脆弱性,结果显示 LLM agents 易受攻击,ReAct-prompted GPT-4 在 24% 的情况下易受攻击,并结合加强的黑客提示进一步提高攻击成功率,对 ReAct-prompted GPT-4 的攻击成功率几乎翻倍。
该研究使用在线游戏玩家创建了一个数据集,用于研究语言模型在恶意注入攻击中的脆弱性。数据集包含超过126,000个注入攻击和46,000个注入攻击的防御。研究者发现许多模型对于攻击策略是脆弱的,并创建了基准测试。数据集中的一些攻击策略在不同约束条件下也具有普适性。