小红花·文摘

本研究提出了FalseReject资源，包含16,000个有毒查询和44个安全类别，旨在解决大型语言模型在安全对齐中对无害查询的过度拒绝问题。通过对抗多智能体互动框架的实验，结果表明，使用FalseReject进行微调可以减少不必要的拒绝，同时保持安全性和语言能力。