More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了直接偏好优化(DPO)在大型语言模型对齐中的应用,发现多模型生成的合成偏好数据虽然能提升性能,但也增加了安全风险。相比之下,仅使用自生成响应的模型在对齐安全性上表现更佳。
🎯
关键要点
- 本研究探讨了直接偏好优化(DPO)在大型语言模型对齐中的应用。
- 多模型生成的合成偏好数据能提升性能,但增加了安全风险。
- 使用自生成响应的模型在对齐安全性上表现更佳。
- 多模型数据在训练中可能导致奖励破解风险,降低模型安全性。
- 研究强调了对齐大型语言模型与人类价值观的重要性。
➡️