小红花·文摘

本文介绍了多目标直接偏好优化（MODPO）在视频问答任务中的应用，展示了其高效的计算资源利用。研究提出了混合偏好优化（HPO）和带有偏移量的直接偏好优化（ODPO），显著提升了大型语言模型与人类偏好的对齐能力。通过多参考模型偏好优化（MRPO），模型在多种自然语言处理任务中表现优越，为无奖偏好学习方法提供了新方向。