小红花·文摘

本研究提出了一种新的协调提示-RAG攻击（PR-攻击），旨在提高检索增强生成（RAG）在大型语言模型中的安全性。通过双层优化框架，PR-攻击能够引入少量被污染文本和后门触发器，生成预设响应，同时保持正常行为。实验结果表明，PR-攻击在有效性和隐蔽性上优于现有攻击方法。

PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization

BriefGPT - AI 论文速递 ·

研究发现，使用指令调优增强大规模视觉语言模型（LVLMs）会增加安全风险，可能导致后门攻击。研究结果表明，攻击的普适性与后门触发器与特定图像/模型的不相关性以及触发器模式的偏好相关。研究还改进了现有的后门攻击方法，在跨域场景的普适性方面取得了显著改进。该研究强调即使是简单的传统后门策略也对LVLMs构成严重威胁，需要更多关注和深入研究。

重访大型视觉语言模型的后门攻击

BriefGPT - AI 论文速递 ·

本论文介绍了针对基于大型语言模型的决策系统的后门攻击的框架，包括三种攻击机制和相应的优化方法。作者通过实验展示了后门触发器和机制的有效性和隐蔽性，并评估了保护决策系统的潜在防御方法。

在防御系统中的提示注入攻击

BriefGPT - AI 论文速递 ·