新型"回音室"越狱技术可诱使OpenAI和谷歌大模型生成有害内容

回音室攻击可90%成功率突破AI安全防线,诱导生成有害内容。

网络安全研究人员揭示了一种名为"回音室"的新型越狱方法,该方法通过间接引用和多步推理诱导大语言模型生成不当内容,成功率超过90%。此发现对大语言模型的安全防护提出了新挑战。

原文中文,约1200字,阅读约需3分钟。发表于:
阅读原文