FalseReject:通过结构化推理提高上下文安全性和减轻大型语言模型中的过度拒绝的资源

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了FalseReject资源,包含16,000个有毒查询和44个安全类别,旨在解决大型语言模型在安全对齐中对无害查询的过度拒绝问题。通过对抗多智能体互动框架的实验,结果表明,使用FalseReject进行微调可以减少不必要的拒绝,同时保持安全性和语言能力。

🎯

关键要点

  • 本研究提出了FalseReject资源,包含16,000个有毒查询和44个安全类别。
  • FalseReject旨在解决大型语言模型在安全对齐中对无害查询的过度拒绝问题。
  • 研究引入了一种图形信息的对抗多智能体互动框架来生成多样化的提示。
  • 实验结果表明,使用FalseReject进行微调可以减少不必要的拒绝。
  • 微调过程中保持了整体的安全性和语言能力。
➡️

继续阅读