本研究提出了一种改进的迁移攻击方法,解决了大型语言模型安全性研究中的越狱攻击不足。通过良性数据蒸馏,成功构建恶意提示,针对GPT-3.5 Turbo的攻击成功率高达92%,强调了防御机制的重要性。
完成下面两步后,将自动完成登录并继续当前操作。