大型语言模型(LLMs)存在生成有害内容的风险。研究提出了组合指令攻击(CIA)技术,通过混淆恶意指令来提高安全性,评估显示CIA在多个模型上的攻击成功率超过83%。此外,研究还探讨了安全提示的优化方法和防御策略,以增强LLMs处理危险内容的能力。
本研究探讨了大型语言模型(LLMs)面临的Prompt Injection攻击,提出了组合指令攻击(CIA)等新技术,显示LLMs在识别恶意提示方面的脆弱性。实验结果表明,攻击成功率超过95%,并提出了有效的防御方法以降低风险,提升LLM的安全性。
完成下面两步后,将自动完成登录并继续当前操作。