超越一种偏好适用于所有情况：多目标直接偏好优化

原文约300字，阅读约需1分钟。发表于：。

多目标直接偏好优化（MODPO）是一种不依赖强化学习（RL）的算法，通过使用多个收集到的反馈和特定加权的收益模型，训练不同的语言模型以满足不同的偏好，以更高效地生成多样化的解决方案，使用了比 MORLHF 更少 3 倍的计算资源。

该研究提出了一种名为PRO的新型策略，通过将人类偏好排名直接应用于语言模型生成的响应的概率排名，实现了语言模型与人类价值观的对齐。研究结果表明，PRO优于现有的对齐算法，并通过实验达到了与ChatGPT和人类响应相当的结果。