小红花·文摘

本文探讨了大模型对齐的流程，包括监督微调（SFT）、奖励模型（RM）和强化学习（RL）。对齐不仅提升了模型对指令的理解能力，还影响推理能力和回答质量。文章介绍了直接偏好优化（DPO）作为一种新方法，简化了训练流程，减少了模型数量，提高了效率。未来研究将关注可验证奖励和长上下文推理，以增强模型的推理能力和应用范围。

【大模型基础设施工程】09：RLHF 与对齐流水线

土法炼钢兴趣小组的博客 ·

本研究提出了一种创新的隐私保护对齐算法DP-AdamW，旨在解决大型语言模型对齐中的隐私问题。在中等隐私预算下，该算法结合直接偏好优化(DPO)，使对齐质量提升15%，为隐私保护与对齐效率的平衡提供了实用指导。

Enhanced Differential Privacy Alignment Algorithm for Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新的训练范式Pre-DPO，旨在提高直接偏好优化（DPO）的数据利用效率。通过使用指导参考模型，Pre-DPO显著提升了DPO和简单偏好优化（SimPO）的性能，无需外部模型或额外数据。

Pre-DPO：通过指导参考模型提高直接偏好优化中的数据利用率

BriefGPT - AI 论文速递 ·

TIS-DPO：用于直接偏好优化的令牌级重要性采样

Apple Machine Learning Research ·

本研究探讨了直接偏好优化（DPO）在大型语言模型对齐中的应用，发现多模型生成的合成偏好数据虽然能提升性能，但也增加了安全风险。相比之下，仅使用自生成响应的模型在对齐安全性上表现更佳。

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment

BriefGPT - AI 论文速递 ·

本研究提出了InCo-DPO方法，解决了直接偏好优化中的离线数据质量和分布偏移问题。通过整合在线与离线数据，动态调整二者的平衡，实验结果表明该方法在多个基准测试中显著提升了模型性能。

InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的两阶段训练方法，通过监督微调和直接偏好优化，提升大型语言模型（LLM）作为评判者的能力。在数据需求量仅为其他方法的2%至40%时，该方法实现了先进性能，显著增强了模型的通用能力，并促进了与人类价值观的对齐。

Enhancing the Ability of Large Language Models as Judges as a General Capability

BriefGPT - AI 论文速递 ·

本研究探讨了链式推理对直接偏好优化（DPO）在文本到SQL应用中的影响。通过增强数据集并注入合成的链式推理，DPO的性能显著提升，表明链式推理对DPO潜力的激发至关重要，为文本到SQL模型的构建提供了重要见解。

Uncovering the Impact of Chain-of-Thought Reasoning on Direct Preference Optimization: Insights from Text-to-SQL

BriefGPT - AI 论文速递 ·

直接偏好优化(DPO)通过成对偏好数据推导奖励信号，以增强大型语言模型(LLMs)与人类偏好的对齐。研究表明，DPO损失函数在减少不喜欢的数据方面的速度快于增加首选数据的速度，这为DPO的改进提供了理论依据。

偏好优化中的损失景观学习

BriefGPT - AI 论文速递 ·

本研究探讨了直接偏好优化（DPO）在降低语言模型毒性方面的机制，发现DPO通过多个神经元群体的综合效应实现毒性降低，其中仅31.8%的降低源于被抑制的毒性神经元。

Ablation Insufficient to Simulate DPO: Neuron Dynamics-Driven Toxicity Reduction

BriefGPT - AI 论文速递 ·

本研究提出了一种视觉引导的直接偏好优化（V-DPO）方法，旨在解决大型视觉语言模型中的幻觉现象，并增强视觉上下文的学习。验证结果表明，该方法在幻觉基准测试中显著提升了性能。

V-DPO：通过视觉引导的直接偏好优化减轻大规模视觉语言模型中的幻觉问题

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过在线学习“Flows”来微调大型语言模型（LLMs），显著提升数学推理任务的性能，采用在线直接偏好优化（DPO）学习。

Flow-DPO：通过在线多代理学习提升大型语言模型的数学推理能力

BriefGPT - AI 论文速递 ·

本文介绍了一种在大型语言模型中应用直接偏好优化的新方法，称为令牌级重要性采样的DPO目标（TIS-DPO）。该方法通过为每个令牌分配基于奖励的权重，提高了优化效率。实验结果表明，TIS-DPO在安全性、实用性对齐和摘要任务上优于多种基线方法。

TIS-DPO：基于估计权重的直接偏好优化的令牌级重要性采样

BriefGPT - AI 论文速递 ·

本文研究了强化学习中人类偏好学习的两种近似：用点奖励代替成对偏好，以及奖励模型在超出分布数据上的泛化。直接偏好优化（DPO）试图绕过第二种近似，但仍依赖第一种。文章提出了新的ΨPO目标，绕过这两种近似，深入分析RLHF和DPO的行为及缺陷。通过设置Ψ为Identity，推导出有效优化过程，证明其性能优于DPO。

通过动态策略融合实现个性化

BriefGPT - AI 论文速递 ·

本文介绍了强化学习中的两个重要近似和直接偏好优化方法。作者提出了一种新的通用目标ΨPO，可以绕过这两个近似。通过将Ψ设置为Identity，作者还提出了一种有效的优化过程，证明其性能优于DPO。

一种从人类反馈中强化学习的极简主义方法

BriefGPT - AI 论文速递 ·