本研究提出了FalseReject资源,包含16,000个有毒查询和44个安全类别,旨在解决大型语言模型在安全对齐中对无害查询的过度拒绝问题。通过对抗多智能体互动框架的实验,结果表明,使用FalseReject进行微调可以减少不必要的拒绝,同时保持安全性和语言能力。
完成下面两步后,将自动完成登录并继续当前操作。