More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了直接偏好优化(DPO)在大型语言模型对齐中的应用,发现多模型生成的合成偏好数据虽然能提升性能,但也增加了安全风险。相比之下,仅使用自生成响应的模型在对齐安全性上表现更佳。

🎯

关键要点

  • 本研究探讨了直接偏好优化(DPO)在大型语言模型对齐中的应用。
  • 多模型生成的合成偏好数据能提升性能,但增加了安全风险。
  • 使用自生成响应的模型在对齐安全性上表现更佳。
  • 多模型数据在训练中可能导致奖励破解风险,降低模型安全性。
  • 研究强调了对齐大型语言模型与人类价值观的重要性。
➡️

继续阅读