小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互):为完成螺栓装配,主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

本文探讨了一种双执行体强化学习框架,结合人类反馈优化视觉-语言-动作(VLA)模型。通过“对话与微调”机制,机器人在长时域操作中实现高效学习,成功率达到100%。该方法在多任务设置中展现出良好的样本效率和训练稳定性,适用于复杂的机器人操作任务。

HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互):为完成螺栓装配,主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

结构之法 算法之道
结构之法 算法之道 · 2026-03-14T16:24:12Z
<span class=“js_title_inner“>京东零售广告创意:统一的布局生成和评估模型</span>

Uni-Layout框架整合了布局生成与人类反馈评估,克服了现有方法的局限性。通过统一生成器和Layout-HF100k数据集,提升了布局设计的灵活性和评估准确性。动态边距偏好优化技术增强了生成与人类审美的对齐,实验结果显示其在多项任务中表现优异。

<span class=“js_title_inner“>京东零售广告创意:统一的布局生成和评估模型</span>

京东科技开发者
京东科技开发者 · 2026-01-15T02:03:37Z
京东零售广告创意:统一的布局生成和评估模型

Uni-Layout框架结合了布局生成与人类反馈评估,克服了现有方法的局限性。通过统一生成器和Layout-HF100k数据集,提升了布局设计的灵活性和评估准确性,并采用动态边距偏好优化技术,实现了更好的用户偏好对齐。

京东零售广告创意:统一的布局生成和评估模型

京东科技开发者
京东科技开发者 · 2026-01-13T06:36:21Z
小猫都能懂的大模型原理 5 - 后训练

本文介绍了大语言模型的基本原理,重点讲述了监督微调(SFT)和强化学习(RLHF)在训练过程中的作用。通过人类反馈优化生成内容,提高与人类偏好的契合度,微调可降低成本并提升特定领域的效果。

小猫都能懂的大模型原理 5 - 后训练

UsubeniFantasy
UsubeniFantasy · 2025-12-08T05:40:13Z

本文探讨了基于人类反馈的强化学习中奖励模型过度优化的问题,提出了一种新正则化方法——批量归零正则化(BSR),显著提升了模型的鲁棒性和泛化能力。

语言模型对齐中奖励模型的鲁棒性研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
如何在大型语言模型中避免幻觉?

大型语言模型(LLMs)的幻觉是指生成看似可信但不准确的信息,尤其在客户支持、医疗、法律和教育等领域影响显著。避免幻觉的方法包括人类反馈强化学习(RLHF)、检索增强生成(RAG)和提示工程。通过整合外部数据和优化提示结构,可以提高模型的准确性和可靠性。尽管完全消除幻觉仍具挑战,但结合这些技术可显著减少其发生。

如何在大型语言模型中避免幻觉?

DEV Community
DEV Community · 2025-05-08T01:57:21Z

本研究提出了一种新的奖励分解方法,解决了基于人类反馈的强化学习中奖励模型泛化能力不足的问题。该方法将奖励分为与提示无关和与提示相关的两个部分,显著提升了模型的对齐性能和泛化能力。

Information-Theoretic Reward Decomposition for Generalizable Human Feedback-Based Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究提出了一种行为支持策略优化(BSPO)方法,旨在解决强化学习中基于人类反馈的奖励过度优化问题,减少模型评估时的外推误差。研究证明,BSPO能够实现策略的单调改进,并收敛到最佳策略。

Mitigating Reward Over-Optimization in RLHF through Behavior-Supported Regularization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

本研究分析了人类反馈强化学习(RLHF)对大语言模型生成文本的影响,结果表明RLHF提升了文本质量,但增加了被检测的可能性。基础检测器对短文本和代码文本的检测能力较弱,而零-shot检测器则更为稳健。

Understanding the Impact of RLHF on the Quality and Detectability of LLM-Generated Text

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-23T00:00:00Z

本研究针对人类反馈强化学习中的过度优化问题,提出了P3O和PRPO算法。通过引入悲观目标,实验证明其在文档摘要和实用助手任务中表现优异,展现出对过度优化的韧性。

Mitigating Preference Manipulation Issues in Policy Optimization through Pessimism

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
误导性的“最佳人工智能”叙事

评估大型语言模型(LLM)时,单一基准无法全面反映其优劣。不同模型在不同任务上的表现各异,需考虑设计目的。有效比较应采用多项基准,关注任务专长,并结合人类反馈,避免简单化结论。

误导性的“最佳人工智能”叙事

DEV Community
DEV Community · 2025-03-06T11:51:22Z

本文提出了一种迭代价值函数优化框架,旨在解决基于人类反馈的强化学习在语言模型输出中的高计算成本和不稳定性问题。该方法通过蒙特卡洛价值估计和策略优化,在文本摘要和多轮对话等任务中显著提高了效果并降低了计算成本。

Iterative Value Function Optimization for Guided Decoding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本文讨论了在高级自然语言处理(NLP)中应用强化学习的概念,强调其在处理模型输出与实际任务需求差异方面的优势。介绍了两种奖励函数类型:基于规则的和基于模型的,并探讨了优化这些奖励函数的方法以提升模型性能。最后,列举了人类反馈强化学习(RLF)和数学问题求解模型等实际应用案例,展示了强化学习在NLP中的重要性和潜力。

卡内基梅隆大学高级自然语言处理 2025 春季课程 (11): 强化学习

Josherich的博客
Josherich的博客 · 2025-02-19T00:00:01Z
基于人类反馈的强化学习(RLHF)

ChatGPT通过人类反馈强化学习(RLHF)不断改进,用户选择更自然的回答并提供反馈,以便未来模型更新。RLHF帮助AI理解人类偏好,减少偏见,提高对话质量。结合安全规则,确保AI灵活且安全。

基于人类反馈的强化学习(RLHF)

DEV Community
DEV Community · 2025-02-09T05:08:00Z

本文提出了一种新的政策梯度算法——得分熵策略优化(SEPO),旨在解决离散扩散模型在使用人类反馈的强化学习中的微调难题。该方法在处理非可微分奖励时展现出良好的可扩展性和效率,可能推动相关研究的发展。

Fine-tuning Discrete Diffusion Models Using Policy Gradient Methods

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本文概述了评估大型语言模型(LLMs)的常用指标和最佳实践。不同任务使用不同的评估标准,如文本分类的准确率、文本生成的困惑度、文本摘要的ROUGE和翻译的BLEU等。评估时应结合多种指标,考虑人类反馈,关注模型的准确性和伦理问题,以确保评估的全面性和有效性。

如何评估大型语言模型(LLMs)

KDnuggets
KDnuggets · 2025-01-28T15:00:34Z

本研究提出了一种系统化的视频生成管道,通过人类反馈优化模型,解决了运动不平滑和视频与提示错位的问题。实验结果表明,该模型优于现有的奖励模型,能够满足个性化视频质量的需求。

Improving Video Generation through Human Feedback

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z

本研究提出了一种好奇心驱动的强化学习框架(CD-RLHF),旨在解决人类反馈强化学习中输出多样性降低的问题。实验结果表明,CD-RLHF在多个任务上显著提升了输出多样性,同时与人类偏好的对齐效果相当。

Curiosity-Driven Reinforcement Learning Based on Human Feedback

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z

本研究提出了“代理实验室”框架,以解决科学发现过程中的高成本和漫长周期问题。该框架能够进行文献回顾、实验和报告撰写,并通过人类反馈提升研究质量,成本最高可减少84%。

代理实验室:将大型语言模型代理作为研究助手

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-08T00:00:00Z

本研究提出了一种基于人类反馈和产品一致性的评估框架,用于自动修复产品广告中的背景。通过收集44,000个图像的反馈数据并训练奖励模型,该框架有效评估生成图像质量,降低手动标注成本,最终实现96.4%的精准度。

An Evaluation Framework for Product Image Background Inpainting Based on Human Feedback and Product Consistency

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码