基于优化的提示注入攻击 LLM-as-a-Judge

LLM-as-a-Judge 与大型语言模型相关的文本信息，存在着优于传统人工评估的表现，并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法，精确地针对 LLM-as-a-Judge 的决策过程进行攻击，利用优化算法自动化生成对抗序列，实现有针对性和有效的模型评估操纵，相较于手工注入攻击，本方法表现出优越的效果，对 LLM 基于判断系统的当前安全方法构成重大挑战。通过广泛实验，展示了 JudgeDeceiver 在不同案例中改变决策结果的能力，强调了 LLM-as-a-Judge 系统对基于优化的注入攻击的脆弱性。

通过评估大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，发现大型语言模型易受攻击，导致ASR更高。提出黑盒和白盒防御方法，黑盒方法可降低ASR，白盒方法可将ASR降至零。激发未来研究工作。