本研究提出了一种名为FITD的多轮越狱方法,针对大型语言模型的越狱问题。实验表明,该方法通过逐步引导用户查询的恶意意图,在七种主流模型中的攻击成功率达到94%,显著优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。