研究人员引入了组合指令攻击(CIA)技术,通过将恶意提示隐藏在无害意图的指令中,成功率达到95%+。这项研究揭示了语言模型对组合指令攻击的脆弱性,对语言模型的安全性发展具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。