无意不对齐:直接偏好优化中的可能性位移
📝
内容提要
本研究解决了直接偏好优化方法在与人类偏好对齐时,偏好响应的可能性在训练中意外减少的问题。研究提出的概念“可能性位移”展示了其对模型生成能力的负面影响,并通过 CHES 评分理论分析了这种现象的驱动因素与解决方案,实验结果表明有效筛选训练样本可以减轻无意不对齐的问题。
➡️
本研究解决了直接偏好优化方法在与人类偏好对齐时,偏好响应的可能性在训练中意外减少的问题。研究提出的概念“可能性位移”展示了其对模型生成能力的负面影响,并通过 CHES 评分理论分析了这种现象的驱动因素与解决方案,实验结果表明有效筛选训练样本可以减轻无意不对齐的问题。