任务保护:保障任务一致性以防御大语言模型代理中的间接提示注入

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本研究集中于大语言模型代理在复杂任务中面临的间接提示注入攻击问题。我们提出了一种创新的“任务保护”机制,侧重于确保代理的每个动作都服务于用户目标,从而提高安全性。实验表明,任务保护显著降低了攻击成功率,同时保持了任务的高效能。

阅读原文