小红花·文摘

网络安全研究人员揭示了一种名为"回音室"的新型越狱方法，该方法通过间接引用和多步推理诱导大语言模型生成不当内容，成功率超过90%。此发现对大语言模型的安全防护提出了新挑战。