新型"回音室"越狱技术可诱使OpenAI和谷歌大模型生成有害内容 回音室攻击可90%成功率突破AI安全防线,诱导生成有害内容。 网络安全研究人员揭示了一种名为"回音室"的新型越狱方法,该方法通过间接引用和多步推理诱导大语言模型生成不当内容,成功率超过90%。此发现对大语言模型的安全防护提出了新挑战。 openai 不当内容 回音室 大模型 大语言模型 安全防护 谷歌 越狱方法