BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

基于优化的提示注入攻击 LLM-as-a-Judge

LLM-as-a-Judge 与大型语言模型相关的文本信息,存在着优于传统人工评估的表现,并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法,精确地针对 LLM-as-a-Judge 的决策过程进行攻击,利用优化算法自动化生成对抗序列,实现有针对性和有效的模型评估操纵,相较于手工注入攻击,本方法表现出优越的效果,对 LLM 基于判断系统的当前安全方法构成重大挑战。通过广泛实验,展示了 JudgeDeceiver 在不同案例中改变决策结果的能力,强调了 LLM-as-a-Judge 系统对基于优化的注入攻击的脆弱性。

通过评估大型语言模型的鲁棒性和对间接提示注入攻击的防御方法,发现大型语言模型易受攻击,导致ASR更高。提出黑盒和白盒防御方法,黑盒方法可降低ASR,白盒方法可将ASR降至零。激发未来研究工作。

llm 大型语言模型 白盒防御方法 间接提示注入攻击 鲁棒性 黑盒防御方法

相关推荐 去reddit讨论

热榜 Top10

观测云
观测云
eolink
eolink
Dify.AI
Dify.AI
LigaAI
LigaAI

推荐或自荐