小红花·文摘

本文研究大型语言模型（LLMs）与人类偏好对齐的复杂性，提出了一个统一框架，将偏好学习策略分为模型、数据、反馈和算法四个部分。通过直接偏好优化（DPO）和混合偏好优化（MPO），提升了模型对用户偏好的理解和适应性，显著增强了偏好学习能力，并推动了未来的研究方向。

通过直接偏好优化大型语言模型：数据效率视角

BriefGPT - AI 论文速递 ·

本文提出了RS-DPO方法，通过结合拒绝采样和直接偏好优化，提升大型语言模型的精调效果，超越现有方法。研究探讨了DPO和PPO的算法特性，并提出混合偏好优化（MPO）等新方法，以增强模型对人类偏好的对齐能力，解决对齐问题的挑战。

Reducing DPO Rejection Penalties to Enhance Training Robustness

BriefGPT - AI 论文速递 ·

本文介绍了优化大型语言模型（LLMs）与人类偏好的多种方法，包括偏好排名优化（PRO）、混合偏好优化（MPO）和多参考模型偏好优化（MRPO）。研究表明，这些方法在对齐性能上优于现有算法，能够有效提升模型在自然语言处理任务中的表现，尤其在数据稀缺情况下。

多目标直接偏好优化（MODPO）是一种高效算法，通过多个反馈和加权收益模型训练语言模型，以减少计算资源。DeAL框架改善了大型语言模型的对齐目标，mDPO解决了多模态偏好优化中的无条件偏好问题。混合偏好优化（HPO）结合直接优化和强化学习，提升用户偏好的对齐性能。DPO算法在可控性方面优于传统方法，Token-level Direct Preference Optimization（TDPO）提高了对齐性和多样性。

多目标解码时间语言模型对齐

BriefGPT - AI 论文速递 ·

本研究提出了一种自我增强式偏好优化（SAPO）方法，旨在提升大型语言模型（LLMs）的训练效率和性能。通过自我对弈生成负面响应，结合离线对比基线和实时反馈，动态更新响应段。此外，引入了混合偏好优化（MPO）和三重偏好优化（TPO）等新方法，显示出在多个评估指标上优于传统方法的性能。

BPO：通过遵守行为近度增强在线偏好学习 LLM

BriefGPT - AI 论文速递 ·

本文介绍了多目标直接偏好优化（MODPO）在视频问答任务中的应用，展示了其高效的计算资源利用。研究提出了混合偏好优化（HPO）和带有偏移量的直接偏好优化（ODPO），显著提升了大型语言模型与人类偏好的对齐能力。通过多参考模型偏好优化（MRPO），模型在多种自然语言处理任务中表现优越，为无奖偏好学习方法提供了新方向。

mDPO: 多模态大型语言模型的条件偏好优化

BriefGPT - AI 论文速递 ·

本文提出了在线自主偏好（OSP）语言模型，通过利用偏好强度信息提高模型对齐性能，避免过度拟合。OSP在多个数据集上表现优异，并能在无监督情况下自我改进。研究还介绍了直接偏好优化（DPO）算法，解决了可控性问题，表现稳定。通过混合偏好优化（MPO）方法，结合DPO和RLHF，进一步提升了模型性能。

自我探索的语言模型：在线对齐的主动偏好引导

BriefGPT - AI 论文速递 ·

本文探讨了通过改进的强化学习方法（如直接偏好优化DPO和邻近策略优化PPO）在资源有限环境中优化大型语言模型的性能。研究表明，DPO在与人类反馈对齐方面表现优越，结合拒绝采样的RS-DPO方法有效提升了模型一致性。此外，混合偏好优化MPO方法在稳定性和鲁棒性上优于传统方法，实验结果验证了其有效性。

DPO 相遇 PPO：针对 RLHF 的强化标记优化

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）与人类偏好的对齐方法，重点介绍了直接偏好优化（DPO）和混合偏好优化（MPO）。研究表明，DPO在对齐性和性能上表现优越，尤其是通过逐步DPO（sDPO）和Token-level DPO（TDPO）等新方法，显著提高了模型质量和多样性。此外，Diffusion-DPO方法通过优化扩散模型与人类偏好对齐，取得了良好效果。

对 DPO 及其变种在多个任务中的对齐研究

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）的对齐方法，包括强化学习与人类反馈（RLHF）和直接偏好优化（DPO）。研究提出了一种新方法混合偏好优化（MPO），结合了两者的优点，采用两阶段训练过程，实验结果显示MPO在对齐任务中表现优异，提升了模型的稳定性和性能。

LLM 的偏好微调应利用次优的，符合策略的数据

BriefGPT - AI 论文速递 ·

本文介绍了一种名为直接偏好优化（DPO）的算法，旨在解决无监督语言模型的可控性问题。与传统的强化学习与人类反馈（RLHF）方法相比，DPO在稳定性和简便性上表现更佳。研究还提出了混合偏好优化（MPO）方法，通过两阶段训练提升对齐性能。此外，文章探讨了DPO与邻近策略优化（PPO）的算法特性，并提出了RS-DPO和Trust Region DPO等新方法，以进一步改善模型质量和与用户意图的一致性。

从 $r$ 到 $Q^*$：您的语言模型暗地里是一个 Q 函数

BriefGPT - AI 论文速递 ·

本文介绍了一种名为直接偏好优化（DPO）的算法，旨在解决无监督语言模型的可控性问题。DPO相较于传统的强化学习方法（RLHF）表现更好且更稳定。研究还提出了Diffusion-DPO方法，通过人类比较数据优化扩散模型，以提高视觉吸引力和文本对齐性。此外，提出了混合偏好优化（MPO）和带有偏移量的DPO（ODPO）等新方法，进一步提升了模型的对齐性能和效率。

Token-Level Direct Preference Optimization

BriefGPT - AI 论文速递 ·

通过直接偏好优化大型语言模型：数据效率视角

Reducing DPO Rejection Penalties to Enhance Training Robustness

多模态标签相关性排序的强化学习

多目标解码时间语言模型对齐

BPO：通过遵守行为近度增强在线偏好学习 LLM

mDPO: 多模态大型语言模型的条件偏好优化

自我探索的语言模型：在线对齐的主动偏好引导

DPO 相遇 PPO：针对 RLHF 的强化标记优化

对 DPO 及其变种在多个任务中的对齐研究

LLM 的偏好微调应利用次优的，符合策略的数据

从 $r$ 到 $Q^*$：您的语言模型暗地里是一个 Q 函数

Token-Level Direct Preference Optimization