InjecGuard:基准测试与缓解提示注入防御过度
原文中文,约600字,阅读约需2分钟。发表于: 。本研究针对提示注入攻击导致的大语言模型(LLMs)防御过度问题进行探讨,即误将无害输入标记为恶意。引入了NotInject,一个评估数据集,用于系统测量各种防护模型的过度防御情况,并提出了InjecGuard,一个新的防护模型,通过采取新训练策略显著降低触发词偏见。研究结果显示,InjecGuard在多个基准测试中表现优异,提供了一种有效的开放源代码解决方案。
本研究探讨了提示注入攻击引发的大语言模型防御过度问题,提出了评估数据集NotInject和新防护模型InjecGuard,显著降低了触发词偏见,表现优异。