本研究提出了一种新的协调提示-RAG攻击(PR-攻击),旨在提高检索增强生成(RAG)在大型语言模型中的安全性。通过双层优化框架,PR-攻击能够引入少量被污染文本和后门触发器,生成预设响应,同时保持正常行为。实验结果表明,PR-攻击在有效性和隐蔽性上优于现有攻击方法。
研究发现,使用指令调优增强大规模视觉语言模型(LVLMs)会增加安全风险,可能导致后门攻击。研究结果表明,攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。研究还改进了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进。该研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁,需要更多关注和深入研究。
本论文介绍了针对基于大型语言模型的决策系统的后门攻击的框架,包括三种攻击机制和相应的优化方法。作者通过实验展示了后门触发器和机制的有效性和隐蔽性,并评估了保护决策系统的潜在防御方法。
完成下面两步后,将自动完成登录并继续当前操作。