小红花·文摘

本研究提出了一种名为FITD的多轮越狱方法，针对大型语言模型的越狱问题。实验表明，该方法通过逐步引导用户查询的恶意意图，在七种主流模型中的攻击成功率达到94%，显著优于现有技术。