小红花·文摘

$HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互)：为完成螺栓装配，主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整$

HIL-DAFT——双智能体的人类在环RL框架微调的人形VLA(先离线预热后在线交互)：为完成螺栓装配，主智能体负责常规操作、精细化执行体依据语音指令实行细粒度调整

结构之法算法之道 ·

＜span class=“js_title_inner“＞京东零售广告创意：统一的布局生成和评估模型＜/span＞

京东科技开发者 ·

京东零售广告创意：统一的布局生成和评估模型

京东科技开发者 ·

小猫都能懂的大模型原理 5 - 后训练

UsubeniFantasy ·

本文探讨了基于人类反馈的强化学习中奖励模型过度优化的问题，提出了一种新正则化方法——批量归零正则化（BSR），显著提升了模型的鲁棒性和泛化能力。

语言模型对齐中奖励模型的鲁棒性研究

BriefGPT - AI 论文速递 ·

如何在大型语言模型中避免幻觉？

DEV Community ·

本研究提出了一种新的奖励分解方法，解决了基于人类反馈的强化学习中奖励模型泛化能力不足的问题。该方法将奖励分为与提示无关和与提示相关的两个部分，显著提升了模型的对齐性能和泛化能力。

Information-Theoretic Reward Decomposition for Generalizable Human Feedback-Based Reinforcement Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种行为支持策略优化（BSPO）方法，旨在解决强化学习中基于人类反馈的奖励过度优化问题，减少模型评估时的外推误差。研究证明，BSPO能够实现策略的单调改进，并收敛到最佳策略。

Mitigating Reward Over-Optimization in RLHF through Behavior-Supported Regularization

BriefGPT - AI 论文速递 ·

本研究分析了人类反馈强化学习（RLHF）对大语言模型生成文本的影响，结果表明RLHF提升了文本质量，但增加了被检测的可能性。基础检测器对短文本和代码文本的检测能力较弱，而零-shot检测器则更为稳健。

Understanding the Impact of RLHF on the Quality and Detectability of LLM-Generated Text

BriefGPT - AI 论文速递 ·

本研究针对人类反馈强化学习中的过度优化问题，提出了P3O和PRPO算法。通过引入悲观目标，实验证明其在文档摘要和实用助手任务中表现优异，展现出对过度优化的韧性。

Mitigating Preference Manipulation Issues in Policy Optimization through Pessimism

BriefGPT - AI 论文速递 ·

误导性的“最佳人工智能”叙事

DEV Community ·

本文提出了一种迭代价值函数优化框架，旨在解决基于人类反馈的强化学习在语言模型输出中的高计算成本和不稳定性问题。该方法通过蒙特卡洛价值估计和策略优化，在文本摘要和多轮对话等任务中显著提高了效果并降低了计算成本。

Iterative Value Function Optimization for Guided Decoding

BriefGPT - AI 论文速递 ·

本文讨论了在高级自然语言处理（NLP）中应用强化学习的概念，强调其在处理模型输出与实际任务需求差异方面的优势。介绍了两种奖励函数类型：基于规则的和基于模型的，并探讨了优化这些奖励函数的方法以提升模型性能。最后，列举了人类反馈强化学习（RLF）和数学问题求解模型等实际应用案例，展示了强化学习在NLP中的重要性和潜力。

卡内基梅隆大学高级自然语言处理 2025 春季课程 (11): 强化学习

Josherich的博客 ·

基于人类反馈的强化学习（RLHF）

DEV Community ·

本文提出了一种新的政策梯度算法——得分熵策略优化（SEPO），旨在解决离散扩散模型在使用人类反馈的强化学习中的微调难题。该方法在处理非可微分奖励时展现出良好的可扩展性和效率，可能推动相关研究的发展。

Fine-tuning Discrete Diffusion Models Using Policy Gradient Methods

BriefGPT - AI 论文速递 ·

本文概述了评估大型语言模型（LLMs）的常用指标和最佳实践。不同任务使用不同的评估标准，如文本分类的准确率、文本生成的困惑度、文本摘要的ROUGE和翻译的BLEU等。评估时应结合多种指标，考虑人类反馈，关注模型的准确性和伦理问题，以确保评估的全面性和有效性。

如何评估大型语言模型（LLMs）

KDnuggets ·

本研究提出了一种系统化的视频生成管道，通过人类反馈优化模型，解决了运动不平滑和视频与提示错位的问题。实验结果表明，该模型优于现有的奖励模型，能够满足个性化视频质量的需求。

Improving Video Generation through Human Feedback

BriefGPT - AI 论文速递 ·

本研究提出了一种好奇心驱动的强化学习框架（CD-RLHF），旨在解决人类反馈强化学习中输出多样性降低的问题。实验结果表明，CD-RLHF在多个任务上显著提升了输出多样性，同时与人类偏好的对齐效果相当。

Curiosity-Driven Reinforcement Learning Based on Human Feedback

BriefGPT - AI 论文速递 ·

本研究提出了“代理实验室”框架，以解决科学发现过程中的高成本和漫长周期问题。该框架能够进行文献回顾、实验和报告撰写，并通过人类反馈提升研究质量，成本最高可减少84%。

代理实验室：将大型语言模型代理作为研究助手

BriefGPT - AI 论文速递 ·

本研究提出了一种基于人类反馈和产品一致性的评估框架，用于自动修复产品广告中的背景。通过收集44,000个图像的反馈数据并训练奖励模型，该框架有效评估生成图像质量，降低手动标注成本，最终实现96.4%的精准度。

An Evaluation Framework for Product Image Background Inpainting Based on Human Feedback and Product Consistency

BriefGPT - AI 论文速递 ·