新型"回音室"越狱技术可诱使OpenAI和谷歌大模型生成有害内容

回音室攻击可90%成功率突破AI安全防线，诱导生成有害内容。

网络安全研究人员揭示了一种名为"回音室"的新型越狱方法，该方法通过间接引用和多步推理诱导大语言模型生成不当内容，成功率超过90%。此发现对大语言模型的安全防护提出了新挑战。

openai 不当内容回音室大模型大语言模型安全防护谷歌越狱方法