小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

大模型训练应视为流水线,分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战,数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性,中训通过调整数据配比提升能力,微调教会模型理解指令,对齐阶段则使用多种算法优化模型表现。整体训练过程复杂,需关注数据、算力和工程细节。

【大模型基础设施工程】05:训练全景:Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
Tektronix发布7 Series DPO示波器,创业界最低噪与最高ENOB纪录

Tektronix推出7系列DPO示波器,具备25GHz带宽、低噪声和高ENOB,采用新型ASIC提升数据处理速度,支持高速通信和人工智能研究。首款DPO714AX已开放订购。

Tektronix发布7 Series DPO示波器,创业界最低噪与最高ENOB纪录

全球TMT-美通国际
全球TMT-美通国际 · 2025-09-17T04:22:49Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

机器之心
机器之心 · 2025-06-19T12:12:10Z
LLMs与传统计算机技术的区别

传统计算机技术具有确定性,而当前的LLMs在解决问题时有时不够准确。基于强化学习的方法如DPO和GRPO通过挖掘特定logits来提升LLMs的质量,尤其是在数学和编程领域。创建足够的测试用例并设置自动测试流程至关重要。

LLMs与传统计算机技术的区别

informal
informal · 2025-05-24T16:00:00Z

本研究分析了噪声标签对离线对齐的影响,探讨了隐私与抗对抗破坏之间的互动,发现局部差分隐私在遭受破坏时面临更大挑战,推动了相关理论的发展。

Unified Theoretical Analysis of Privacy and Robustness in Offline Alignment: From RLHF to DPO

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种新的训练范式Pre-DPO,旨在提高直接偏好优化(DPO)的数据利用效率。通过使用指导参考模型,Pre-DPO显著提升了DPO和简单偏好优化(SimPO)的性能,无需外部模型或额外数据。

Pre-DPO:通过指导参考模型提高直接偏好优化中的数据利用率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z
TIS-DPO:用于直接偏好优化的令牌级重要性采样

本文提出了一种名为TIS-DPO的令牌级重要性采样方法,用于直接偏好优化(DPO),旨在提高大语言模型的优化效率。TIS-DPO通过为每个令牌分配基于奖励的重要性权重,优化了数据集的使用。实验结果表明,TIS-DPO在无害性和有用性对齐及摘要任务上显著优于基线方法。

TIS-DPO:用于直接偏好优化的令牌级重要性采样

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-15T00:00:00Z

本文探讨了偏好数据在扩散模型训练过程中的关键作用,特别是在Diffusion-DPO及其后续适应中,针对少数样本对模型表现的负面影响,提出了一种新颖的自适应DPO方法。该方法通过引入一种少数样本意识的指标,优化了DPO损失函数,既提高了模型对多数标签的学习能力,又减轻了少数样本的负面影响,为图像生成任务的发展提供了新的训练思路。

当偏好发生分歧:对少数群体意识的自适应DPO进行对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-21T00:00:00Z

本研究提出了InCo-DPO方法,解决了直接偏好优化中的离线数据质量和分布偏移问题。通过整合在线与离线数据,动态调整二者的平衡,实验结果表明该方法在多个基准测试中显著提升了模型性能。

InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一种平衡DPO方法,旨在解决文本到图像扩散模型在对齐多样化偏好方面的挑战。该方法通过对齐人类偏好、CLIP评分和美学质量等指标,显著提升了主要指标的表现,平均胜率分别提高了15%、7.1%和10.3%。

平衡DPO:自适应多指标对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-16T00:00:00Z

本研究解决了复合人工智能系统中组件对齐的问题,这些系统包含多个相互作用的部分如大型语言模型代理和外部工具。我们提出了一种新的系统级首选优化方法(SysDPO),通过将复合AI系统建模为有向无环图(DAG),有效应对传统方法的局限性。研究表明,该方法在对齐大型语言模型和扩散模型方面取得了显著效果,为复合人工智能系统的进一步发展奠定了基础。

通过系统级DPO对复合人工智能系统进行对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本研究针对现有直接偏好优化方法在长链数学推理中的不足,提出了一种新颖的全步长DPO框架,能够利用整个推理链中的逐步奖励进行优化。通过训练自监督过程奖励模型,自动为每一步评分并避免对外部信号的依赖,研究结果显示全步长DPO在数学推理基准测试中表现优于现有的最佳方法,显著提升了语言模型的推理能力。

全步长DPO:带有逐步奖励的自监督偏好优化用于数学推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究针对文本到图像(T2I)系统中的对齐精度问题,提出了YinYangAlign这一先进的评估框架。该框架旨在量化T2I系统的对齐忠诚度,解决了六个基本且内在矛盾的设计目标,促进了对用户意图和创意修改之间的平衡,提高了生成图像的可靠性与一致性。

阴阳对齐:评估矛盾目标并提出基于多目标优化的文本到图像对齐的DPO方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本研究提出了一种改进的H-DPO方法,解决了大型语言模型训练中直接偏好优化(DPO)无法有效捕捉参考分布模式的问题。实验结果表明,H-DPO在多个任务中优于DPO,尤其在数学任务中表现突出,显示出良好的应用潜力。

可控熵直接偏好优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本研究探讨了直接偏好优化(DPO)在降低语言模型毒性方面的机制,发现DPO通过多个神经元群体的综合效应实现毒性降低,其中仅31.8%的降低源于被抑制的毒性神经元。

Ablation Insufficient to Simulate DPO: Neuron Dynamics-Driven Toxicity Reduction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z
ORPO、DPO与PPO:为人类偏好优化模型

在大型语言模型(LLM)中,优化响应以符合人类偏好至关重要。DPO(直接偏好优化)、ORPO(赔率比偏好优化)和PPO(近端策略优化)是三种关键技术,旨在提升用户体验。DPO通过分类损失直接优化响应,ORPO结合指令调优与偏好对齐,而PPO确保训练过程的稳定性。这些方法帮助生成更符合用户期望的响应。

ORPO、DPO与PPO:为人类偏好优化模型

DEV Community
DEV Community · 2024-11-08T11:37:24Z

该论文研究了视觉语言预训练模型中的对象幻觉问题,提出了ObjMLM损失函数以减少幻觉现象。通过HA-DPO和VTI等新技术,显著提高了模型性能,降低了幻觉率,增强了视觉特征的稳定性。实验结果显示,这些方法在多个指标上超越了基线,推动了视觉语言模型的发展。

V-DPO:通过视觉引导的直接偏好优化减轻大规模视觉语言模型中的幻觉问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本研究提出了一种新方法,通过在线学习“Flows”来微调大型语言模型(LLMs),显著提升数学推理任务的性能,采用在线直接偏好优化(DPO)学习。

Flow-DPO: Enhancing Mathematical Reasoning Abilities of Large Language Models through Online Multi-Agent Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本文提出了一种统一微调(UFT)方法,将序列化应用中的SFT与对齐整合为单一训练阶段,使用相同的目标和损失函数。实验结果表明,UFT在指令调优数据上优于SFT,显著减少了灾难性遗忘,并提升了指令执行和真实性任务的表现。

UFT: Unifying Fine-Tuning of SFT and RLHF/DPO/UNA through a Generalized Implicit Reward Function

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究解决了现有直接偏好优化方法忽视人类偏好的多维特性的问题。通过引入名为HelpSteer-2D的二维监督数据集,并设计多段和多方面的评估标准,提出了2D-DPO框架。实验结果表明,2D-DPO在优化多维偏好方面的表现优于传统的标量或一维偏好优化方法,可能对大语言模型的可用性与效果产生重大影响。

2D-DPO:利用二维监督扩展直接偏好优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码