本研究提出DELMAN方法,旨在解决大型语言模型在决策应用中的越狱攻击问题。该方法通过调整少量参数实现动态防护,同时保持模型性能,实验结果表明其有效应对新攻击实例。
完成下面两步后,将自动完成登录并继续当前操作。