小红花·文摘

大模型训练应视为流水线，分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战，数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性，中训通过调整数据配比提升能力，微调教会模型理解指令，对齐阶段则使用多种算法优化模型表现。整体训练过程复杂，需关注数据、算力和工程细节。

【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客 ·

Tektronix发布7 Series DPO示波器，创业界最低噪与最高ENOB纪录

全球TMT-美通国际 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

机器之心 ·

LLMs与传统计算机技术的区别

informal ·

本研究分析了噪声标签对离线对齐的影响，探讨了隐私与抗对抗破坏之间的互动，发现局部差分隐私在遭受破坏时面临更大挑战，推动了相关理论的发展。

Unified Theoretical Analysis of Privacy and Robustness in Offline Alignment: From RLHF to DPO

BriefGPT - AI 论文速递 ·

本研究提出了一种新的训练范式Pre-DPO，旨在提高直接偏好优化（DPO）的数据利用效率。通过使用指导参考模型，Pre-DPO显著提升了DPO和简单偏好优化（SimPO）的性能，无需外部模型或额外数据。

Pre-DPO：通过指导参考模型提高直接偏好优化中的数据利用率

BriefGPT - AI 论文速递 ·

TIS-DPO：用于直接偏好优化的令牌级重要性采样

Apple Machine Learning Research ·

本文探讨了偏好数据在扩散模型训练过程中的关键作用，特别是在Diffusion-DPO及其后续适应中，针对少数样本对模型表现的负面影响，提出了一种新颖的自适应DPO方法。该方法通过引入一种少数样本意识的指标，优化了DPO损失函数，既提高了模型对多数标签的学习能力，又减轻了少数样本的负面影响，为图像生成任务的发展提供了新的训练思路。

当偏好发生分歧：对少数群体意识的自适应DPO进行对齐

BriefGPT - AI 论文速递 ·

本研究提出了InCo-DPO方法，解决了直接偏好优化中的离线数据质量和分布偏移问题。通过整合在线与离线数据，动态调整二者的平衡，实验结果表明该方法在多个基准测试中显著提升了模型性能。

InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization

BriefGPT - AI 论文速递 ·

本研究提出了一种平衡DPO方法，旨在解决文本到图像扩散模型在对齐多样化偏好方面的挑战。该方法通过对齐人类偏好、CLIP评分和美学质量等指标，显著提升了主要指标的表现，平均胜率分别提高了15%、7.1%和10.3%。

平衡DPO：自适应多指标对齐

BriefGPT - AI 论文速递 ·

本研究解决了复合人工智能系统中组件对齐的问题，这些系统包含多个相互作用的部分如大型语言模型代理和外部工具。我们提出了一种新的系统级首选优化方法（SysDPO），通过将复合AI系统建模为有向无环图（DAG），有效应对传统方法的局限性。研究表明，该方法在对齐大型语言模型和扩散模型方面取得了显著效果，为复合人工智能系统的进一步发展奠定了基础。

通过系统级DPO对复合人工智能系统进行对齐

BriefGPT - AI 论文速递 ·

本研究针对现有直接偏好优化方法在长链数学推理中的不足，提出了一种新颖的全步长DPO框架，能够利用整个推理链中的逐步奖励进行优化。通过训练自监督过程奖励模型，自动为每一步评分并避免对外部信号的依赖，研究结果显示全步长DPO在数学推理基准测试中表现优于现有的最佳方法，显著提升了语言模型的推理能力。

全步长DPO：带有逐步奖励的自监督偏好优化用于数学推理

BriefGPT - AI 论文速递 ·

本研究针对文本到图像(T2I)系统中的对齐精度问题，提出了YinYangAlign这一先进的评估框架。该框架旨在量化T2I系统的对齐忠诚度，解决了六个基本且内在矛盾的设计目标，促进了对用户意图和创意修改之间的平衡，提高了生成图像的可靠性与一致性。

阴阳对齐：评估矛盾目标并提出基于多目标优化的文本到图像对齐的DPO方法

BriefGPT - AI 论文速递 ·

本研究提出了一种改进的H-DPO方法，解决了大型语言模型训练中直接偏好优化（DPO）无法有效捕捉参考分布模式的问题。实验结果表明，H-DPO在多个任务中优于DPO，尤其在数学任务中表现突出，显示出良好的应用潜力。

可控熵直接偏好优化

BriefGPT - AI 论文速递 ·

本研究探讨了直接偏好优化（DPO）在降低语言模型毒性方面的机制，发现DPO通过多个神经元群体的综合效应实现毒性降低，其中仅31.8%的降低源于被抑制的毒性神经元。

Ablation Insufficient to Simulate DPO: Neuron Dynamics-Driven Toxicity Reduction

BriefGPT - AI 论文速递 ·

ORPO、DPO与PPO：为人类偏好优化模型

DEV Community ·

该论文研究了视觉语言预训练模型中的对象幻觉问题，提出了ObjMLM损失函数以减少幻觉现象。通过HA-DPO和VTI等新技术，显著提高了模型性能，降低了幻觉率，增强了视觉特征的稳定性。实验结果显示，这些方法在多个指标上超越了基线，推动了视觉语言模型的发展。

V-DPO：通过视觉引导的直接偏好优化减轻大规模视觉语言模型中的幻觉问题

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过在线学习“Flows”来微调大型语言模型（LLMs），显著提升数学推理任务的性能，采用在线直接偏好优化（DPO）学习。

Flow-DPO: Enhancing Mathematical Reasoning Abilities of Large Language Models through Online Multi-Agent Learning

BriefGPT - AI 论文速递 ·

本文提出了一种统一微调（UFT）方法，将序列化应用中的SFT与对齐整合为单一训练阶段，使用相同的目标和损失函数。实验结果表明，UFT在指令调优数据上优于SFT，显著减少了灾难性遗忘，并提升了指令执行和真实性任务的表现。

UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function

BriefGPT - AI 论文速递 ·

本研究解决了现有直接偏好优化方法忽视人类偏好的多维特性的问题。通过引入名为HelpSteer-2D的二维监督数据集，并设计多段和多方面的评估标准，提出了2D-DPO框架。实验结果表明，2D-DPO在优化多维偏好方面的表现优于传统的标量或一维偏好优化方法，可能对大语言模型的可用性与效果产生重大影响。

2D-DPO：利用二维监督扩展直接偏好优化

BriefGPT - AI 论文速递 ·