小红花·文摘

GRACE：一种可解释的逆强化学习语言模型框架

Apple Machine Learning Research ·

本研究提出了一种名为IKEA的自适应搜索代理，旨在提高大型语言模型的检索效率。该代理通过内部知识优先和创新的奖励函数，减少外部检索频率，从而提升准确性和推理能力。

Reinforced Internal-External Knowledge Synergistic Reasoning to Enhance the Efficiency of Adaptive Search Agents

BriefGPT - AI 论文速递 ·

本研究提出了一种潜在偏好编码（LPC）方法，以解决大型语言模型与人类偏好对齐的问题。LPC超越了传统的奖励函数，能够自动推断数据中的隐性因素。实验结果表明，LPC在多个基准测试中优于现有算法，并增强了对噪声数据的鲁棒性。

潜在偏好编码：通过离散潜在编码对大型语言模型进行对齐

BriefGPT - AI 论文速递 ·

如果人生就是一场强化学习，你的奖励函数是什么？

橘子汽水铺 ·

埃隆的AGI愿景：CTO对TruthGPT的解读

DEV Community ·

本研究提出了一种多智能体强化学习框架，旨在优化组织修复过程，结合分子信号建模和生物启发的奖励函数，实验结果表明该框架能够生成有效的修复策略。

Achieving Optimal Tissue Repair through Reward Shaping and Curriculum Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法RefAlign，旨在降低大型语言模型对齐中人类偏好数据收集的成本。通过利用样本生成与高质量参考答案的相似性作为奖励函数，显著提高了对齐效率，适用于多种对齐场景，且性能与传统方法相当。

通过参考答案学习：无需二元人类偏好数据的多功能语言模型对齐

BriefGPT - AI 论文速递 ·

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

机器之心 ·

本研究提出了一种新方法，通过结合轨迹草图和代理性能设计连续控制机器人的奖励函数，有效解决了奖励不匹配和黑客问题。实验结果显示，该方法在多项任务中的成功率达到70-80%，比传统方法提高了20-30%。

VARP: A Method for Reinforcement Learning and Agent Regularization Preferences Based on Visual-Language Model Feedback

BriefGPT - AI 论文速递 ·

本研究提出了一种多智能体边际Q学习（MAMQL）框架，旨在解决多智能体场景中的奖励函数误指定问题。MAMQL通过边际化其他智能体的策略，显著提高了平均收益和样本效率，效果优于现有方法2-5倍。

Multi-Agent Demonstration Inverse Q-Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种名为ARCHIE的自主强化学习方法，利用GPT-4从自然语言任务描述生成奖励函数，解决复杂人机协作中的奖励函数设计难题。实验结果表明，该方法能够有效将人类可读文本转化为可部署的机器人技能。

Combining Autonomous Reinforcement Learning and Large Language Models for Real-World Robotic Manipulation

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的逆强化学习方法，解决了固定奖励分配和隐式奖励正则化的灵活性问题。通过引入平方时间差正则化器和自适应目标动态调整，我们的方法在模仿学习中优化了奖励函数，并结合分布式强化学习，在MuJoCo任务上取得了优异的实验结果。

RIZE：通过分布式强化学习的正则化模仿学习

BriefGPT - AI 论文速递 ·

本文讨论了在高级自然语言处理（NLP）中应用强化学习的概念，强调其在处理模型输出与实际任务需求差异方面的优势。介绍了两种奖励函数类型：基于规则的和基于模型的，并探讨了优化这些奖励函数的方法以提升模型性能。最后，列举了人类反馈强化学习（RLF）和数学问题求解模型等实际应用案例，展示了强化学习在NLP中的重要性和潜力。

卡内基梅隆大学高级自然语言处理 2025 春季课程 (11): 强化学习

Josherich的博客 ·

本研究提出了一种基于视觉语言模型（VLM）的迭代关键点奖励（IKER）方法，旨在解决开放世界环境中的机器人操控任务规范挑战。IKER通过动态优化奖励函数，提高机器人在多步骤操控中的精确性和灵活性，实验证明其在动态环境中的有效性。

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

BriefGPT - AI 论文速递 ·

清华与CMU团队的研究表明，长思维链（CoT）推理能力可以通过强化学习（RL）实现，监督微调（SFT）并非必需，但能提升效率。研究强调奖励函数对CoT扩展的重要性，并指出模型具备自我纠错能力。未来的研究将集中在模型规模和RL基础设施的改进上。

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

量子位 ·

本研究提出了UNIDOOR，一个通用的动作级后门攻击框架，旨在解决深度强化学习中的后门攻击问题。UNIDOOR通过自适应探索后门奖励函数，显著提升了攻击效果，展示了其在多种攻击场景下的优越性能和广泛适用性。

UNIDOOR：深度强化学习中的动作级后门攻击的普遍框架

BriefGPT - AI 论文速递 ·

本研究提出了一种新的反向强化学习框架SWIRL，解决了传统方法无法捕捉动物历史依赖的问题。该模型结合时间变化和历史依赖的奖励函数，更准确地描述复杂的动物决策过程，并在多个数据集上优于传统模型。

Inverse Reinforcement Learning with Switching Rewards and History Dependency for Characterizing Animal Behaviors

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，解决大语言模型训练中的人类偏好对齐问题。研究者引入“近似克隆鲁棒性”概念，并提出加权最大似然估计算法，以确保在数据不均匀情况下奖励函数的稳定性。

克隆鲁棒的人工智能对齐

BriefGPT - AI 论文速递 ·

本研究提出了“约束作为奖励”（CaR）概念，以解决机器人强化学习中奖励函数设计的复杂性。通过多个约束函数制定任务目标，运用拉格朗日方法成功获取目标行为，从而降低了手动设计奖励函数的难度。

Constraints as Rewards: Reinforcement Learning for Robots without Reward Functions

BriefGPT - AI 论文速递 ·

本文探讨了强化学习政策的时间解释，提出了时间策略分解（TPD）方法，通过期望未来结果（EFO）分解价值函数，揭示特定结果发生的时机，从而提升对政策的理解和奖励函数的优化。

通过时间策略分解实现可解释的强化学习

BriefGPT - AI 论文速递 ·