小红花·文摘

本研究探讨了大语言模型（LLMs）在应用中的失败案例，并提出了一种新型对抗性推理方法以引发有害反应。通过自动越狱，我们提高了对齐LLMs的攻击成功率，揭示了其脆弱性，为构建更稳健的AI系统提供了新视角。