小红花·文摘

本研究提出了一种改进的迁移攻击方法，解决了大型语言模型安全性研究中的越狱攻击不足。通过良性数据蒸馏，成功构建恶意提示，针对GPT-3.5 Turbo的攻击成功率高达92%，强调了防御机制的重要性。