小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨了提示注入攻击引发的大语言模型防御过度问题，提出了评估数据集NotInject和新防护模型InjecGuard，显著降低了触发词偏见，表现优异。

InjecGuard：基准测试与缓解提示注入防御过度

BriefGPT - AI 论文速递 ·