小红花·文摘

本研究提出DELMAN方法，旨在解决大型语言模型在决策应用中的越狱攻击问题。该方法通过调整少量参数实现动态防护，同时保持模型性能，实验结果表明其有效应对新攻击实例。