您的 “安全” 数据中有什么?:识别破坏安全性的良性数据

原文约400字,阅读约需1分钟。发表于:

通过双向锚定方法优先选择与有害示例接近但远离良性示例的数据点,我们的方法有效地识别了在微调后可能降低模型安全性的良性数据子集。

研究发现,对大型语言模型进行微调可能会危及其安全性,即使使用良性数据集进行微调也可能降低其安全性。当前的安全基础设施无法解决这些风险,需要进一步研究以加强对齐的语言模型的安全协议。

相关推荐 去reddit讨论