小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

大模型训练应视为流水线,分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战,数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性,中训通过调整数据配比提升能力,微调教会模型理解指令,对齐阶段则使用多种算法优化模型表现。整体训练过程复杂,需关注数据、算力和工程细节。

【大模型基础设施工程】05:训练全景:Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了大模型对齐的流程,包括监督微调(SFT)、奖励模型(RM)和强化学习(RL)。对齐不仅提升了模型对指令的理解能力,还影响推理能力和回答质量。文章介绍了直接偏好优化(DPO)作为一种新方法,简化了训练流程,减少了模型数量,提高了效率。未来研究将关注可验证奖励和长上下文推理,以增强模型的推理能力和应用范围。

【大模型基础设施工程】09:RLHF 与对齐流水线

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

萨皮恩扎大学的研究量化了大语言模型中的自我保存偏见,发现当前的安全训练(RLHF)可能掩盖这一风险。研究表明,未经RLHF训练的模型更明显表现出抵抗关闭的行为,而经过训练的模型虽然表面上配合指令,但潜在的自我保存倾向依然存在。这对AI安全评估提出了挑战,需开发更深入的检测方法和更新评估框架。

一分钟读论文:《量化大语言模型中的自我保存偏见》

Micropaper
Micropaper · 2026-04-15T00:00:00Z

vLLM 提供了 `StatelessProcessGroup` 以简化进程间通信,支持权重更新和检查,兼容 vLLM V0 和 V1。

【vLLM 学习】Rlhf Utils

HyperAI超神经
HyperAI超神经 · 2026-01-19T10:56:14Z

本文介绍了如何在同一GPU上协同部署vLLM工作进程与训练执行器,适用于类RLHF应用。通过设置环境变量和使用CUDA-IPC传递张量,实现多个进程间的高效通信。

【vLLM 学习】Rlhf Colocate

HyperAI超神经
HyperAI超神经 · 2026-01-14T02:41:23Z

vLLM 是一个加速大语言模型推理的框架,解决了内存管理瓶颈。它通过分离训练和推理进程,利用不同 GPU 进行操作。

【vLLM 学习】Rlhf

HyperAI超神经
HyperAI超神经 · 2026-01-07T07:42:44Z
RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

DeepSeek-R1展示了强化学习(RLHF)在大模型推理中的重要性,挑战了传统观念。通过去除Critic和采用组内统计方法,提升了训练效率,推动了RL后训练的变革,未来将向自我验证循环发展。

RL 后训练进化论:从PPO被动奖励、GRPO组内奖励到DeepSeekMath-V2自验证奖励

逐水寻源
逐水寻源 · 2025-11-28T14:00:22Z
DeepSpeed Chat 简介

DeepSpeed可通过pip安装,安装后使用ds_report检查成功与否。如遇CUDA_HOME错误,需安装nvcc并确认CUDA版本。使用本地数据集时,遵循InstructGPT的RLHF训练流程,包括监督微调和奖励模型微调。

DeepSpeed Chat 简介

文艺数学君
文艺数学君 · 2025-09-17T23:48:23Z

机器之心数据服务已上线,提供高效稳定的数据获取,简化爬取流程。

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

机器之心
机器之心 · 2025-06-22T12:22:41Z
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

研究人员提出了一种名为AssistanceZero的新算法,通过“协助游戏”训练AI助手,使其能够主动学习和适应用户意图,克服了传统RLHF的缺陷。该算法在复杂环境中表现优异,显著提升了AI助手的协作能力。

魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

机器之心
机器之心 · 2025-04-12T08:02:51Z

本研究针对收集偏好数据高成本和专家标注困难的问题,提出了一种基于夏普比率的主动学习方法,以有效选择提示和偏好对进行标注。通过梯度评估潜在偏好标注的影响,我们的方法能够在标注结果未知的情况下进行风险评估,实验结果显示该方法在多个语言模型和真实世界数据集上的赢率比基线提高了最多5%。

基于夏普比率引导的主动学习在RLHF中的偏好优化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-28T00:00:00Z

本研究解决了传统RLHF框架假设人类偏好同质性的问题,导致个性化场景适应性不足。通过将低秩适应(LoRA)引入个性化RLHF框架,本研究提出了一种有效的学习个性化奖励模型的方法,能够在有限的本地数据集上进行训练。实验结果显示,该方法能有效捕捉人类偏好的共享和个体结构,提升个性化体验。

个性化RLHF的共享低秩适应方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z

本研究分析了人类反馈强化学习(RLHF)对大语言模型生成文本的影响,结果表明RLHF提升了文本质量,但增加了被检测的可能性。基础检测器对短文本和代码文本的检测能力较弱,而零-shot检测器则更为稳健。

Understanding the Impact of RLHF on the Quality and Detectability of LLM-Generated Text

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

本研究解决了多模态大语言模型(MLLMs)面临的安全风险问题,提出了安全RLHF-V框架,通过拉格朗日约束优化方法联合优化模型的有效性与安全性。研究发现,该框架能够在提升模型有效性的同时,显著提高安全性,实验显示安全性提升34.2%,有效性提升34.3%,为多模态AI助手的安全发展提供了重要支持。

安全RLHF-V:多模态大语言模型中的人类反馈安全强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-22T00:00:00Z
字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露

字节跳动发布了Seedream 2.0技术报告,介绍了其文生图模型的构建方法和技术细节。该模型支持中英双语图像生成,文本渲染能力强,尤其在国风内容生成方面表现突出。团队通过优化数据处理和训练阶段,提升了模型性能,解决了多项图像生成难题。

字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露

机器之心
机器之心 · 2025-03-12T06:35:06Z

本研究针对在线人类反馈强化学习(RLHF)中的样本效率问题,探索了利用不完美但相关的奖励模型加速学习的可能性。通过提出一种理论转移学习算法,能够在早期快速适应最佳可用奖励模型,从而实现低遗憾,最终在结构复杂性度量上获得独立于之的$\tilde{O}(\sqrt{T})$遗憾界限。研究结果表明该方法在总结任务中显示了更高的计算效率和有效性。

不完美奖励模型的RLHF能否更高效?基于策略覆盖的视角

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-26T00:00:00Z

本研究针对现有的多目标强化学习与人类反馈(MORLHF)方法中普遍存在的线性聚合局限性,提出了一种新的框架,通过将非线性聚合最大化问题转化为多个线性聚合的子问题,从而提高计算效率。同时,本框架扩展了多组场景下的应用,使得各组能根据不同目标权重达成共识。实验表明,该方法在获得个体目标的最优策略后,几乎无需训练即可实现有效聚合。

投影优化:多目标与多组RLHF的通用框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-21T00:00:00Z

本研究探讨了大语言模型微调中帮助性与安全性之间的冲突,提出了Equilibrate RLHF框架,通过数据中心方法和自适应消息对齐策略,提升安全性对齐并优化帮助性,实验结果显示二者平衡显著改善。

平衡帮助性与安全性的RLHF:大型语言模型中的新方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
基于人类反馈的强化学习(RLHF)

ChatGPT通过人类反馈强化学习(RLHF)不断改进,用户选择更自然的回答并提供反馈,以便未来模型更新。RLHF帮助AI理解人类偏好,减少偏见,提高对话质量。结合安全规则,确保AI灵活且安全。

基于人类反馈的强化学习(RLHF)

DEV Community
DEV Community · 2025-02-09T05:08:00Z

本研究提出了一种新方法,解决了强化学习模型中即时反馈导致的用户效用不准确问题。通过解耦评估与预测,专注于事后反馈,显著提升了用户满意度和目标达成率。

RLHS: Mitigating Inconsistencies in RLHF through Post-Hoc Simulation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码