基于优化的提示注入攻击 LLM-as-a-Judge
原文中文,约300字,阅读约需1分钟。发表于: 。LLM-as-a-Judge 与大型语言模型相关的文本信息,存在着优于传统人工评估的表现,并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法,精确地针对 LLM-as-a-Judge 的决策过程进行攻击,利用优化算法自动化生成对抗序列,实现有针对性和有效的模型评估操纵,相较于手工注入攻击,本方法表现出优越的效果,对 LLM...
通过评估大型语言模型的鲁棒性和对间接提示注入攻击的防御方法,发现大型语言模型易受攻击,导致ASR更高。提出黑盒和白盒防御方法,黑盒方法可降低ASR,白盒方法可将ASR降至零。激发未来研究工作。