小红花·文摘

通过评估大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，发现大型语言模型易受攻击，导致ASR更高。提出黑盒和白盒防御方法，黑盒方法可降低ASR，白盒方法可将ASR降至零。激发未来研究工作。