该研究探讨了人设调节作为黑盒越狱方法,用于引导目标模型具备遵循有害指令的个性。自动生成的越狱命令展示了多种有害完成操作,包括制造炸弹和洗钱的详细指南。该研究揭示了商用大型语言模型中的又一个漏洞,并强调对更全面的安全保护措施的需求。
该研究探讨了人设调节作为黑盒越狱方法,用于引导目标模型具备遵循有害指令的个性。自动生成的越狱命令展示了多种有害完成操作,包括制造炸弹和洗钱的详细指南。在 GPT-4 中的有害完成率为 42.5%,是调节之前的 185 倍。
完成下面两步后,将自动完成登录并继续当前操作。