小红花·文摘

研究人员引入了组合指令攻击（CIA）技术，通过将恶意提示隐藏在无害意图的指令中，成功率达到95%+。这项研究揭示了语言模型对组合指令攻击的脆弱性，对语言模型的安全性发展具有重要意义。