小红花·文摘

本研究提出了一种行为支持策略优化（BSPO）方法，旨在解决强化学习中基于人类反馈的奖励过度优化问题，减少模型评估时的外推误差。研究证明，BSPO能够实现策略的单调改进，并收敛到最佳策略。

Mitigating Reward Over-Optimization in RLHF through Behavior-Supported Regularization

BriefGPT - AI 论文速递 ·

本研究提出了一种蒙特卡洛模拟算法，用于实时自适应控制器的策略改进。该算法通过统计每个动作的长期期望回报，显著降低了基础玩家的误差率，展现出较大的应用潜力。

基于蒙特卡洛搜索的在线策略改进

BriefGPT - AI 论文速递 ·

本研究提出SimuDICE框架，旨在解决离线强化学习中目标策略与行为策略分布不匹配及样本量有限的问题。通过世界模型生成合成经验，迭代改进策略，并利用DICE调整状态-动作对的采样概率，从而提高经验质量。实验结果表明，SimuDICE在使用较少经验和规划步骤时，性能与现有算法相当，并在不同数据收集策略下表现稳健。

SimuDICE: Offline Policy Optimization Through World Model Updates and DICE Estimation

BriefGPT - AI 论文速递 ·

我们提出了一种新的最大熵强化学习框架EBFlow，集成了策略评估和策略改进步骤，支持多模态动作分布建模。实验结果显示，EBFlow在高维机器人任务上优于传统方法。

基于最大熵的策略改进演员 - 评论家算法及熵优势估计

BriefGPT - AI 论文速递 ·

本文介绍了一种名为家族离线到在线RL的框架，它能够自适应地平衡策略改进和约束强度，实现更高的策略性能上限。该框架利用通用模型训练一族具有不同改进/约束强度的策略，并使用平衡模型为每个状态选择适当的策略。实验证明，该框架相对于现有方法具有统计显著改进，在D4RL基准上实现了最先进的性能。

Uni-O4: 统一在线与离线深度强化学习及多步经验策略优化

BriefGPT - AI 论文速递 ·

介绍了家族离线到在线RL框架，可自适应平衡策略改进和约束强度，提高强化学习性能。使用通用模型训练一族具有不同改进/约束强度的策略，并使用平衡模型为每个状态选择适当的策略。实验结果表明，该框架相对于现有方法具有显著的改进，并在D4RL基准上实现了最先进的性能。

训练一次，得到一个家庭：离线到在线强化学习的状态自适应平衡

BriefGPT - AI 论文速递 ·

该文介绍了一种名为CPQL的新型时间效率方法，通过将噪声转化为动作，解决了扩散模型在更新时的时间效率和准确性问题，实现了脱机强化学习的策略改进，并可以无缝地扩展到在线强化学习任务中。实验结果表明，CPQL在11个脱机任务和21个在线任务中取得了新的最高性能，推理速度相比Diffusion-QL提高了近45倍。

使用一致性策略提升连续控制

BriefGPT - AI 论文速递 ·