小红花·文摘 - 小红花技术领袖俱乐部

$Q-Guided Flow——RL中基于流策略的推理时梯度引导：不直接在噪声动作上求Q的梯度，也不对整条去噪链做BPTT，而是一步Euler积分且把Jacobian直接换成单位矩阵$

Q-Guided Flow——RL中基于流策略的推理时梯度引导：不直接在噪声动作上求Q的梯度，也不对整条去噪链做BPTT，而是一步Euler积分且把Jacobian直接换成单位矩阵

结构之法算法之道 ·

本研究探讨了强化学习代理在未知状态下的挑战，提出了一种新方法——逐渐认知增长的情节马尔可夫决策过程（EMDP-GA）。该方法通过非信息化的价值扩展（NIVE）帮助代理初始化价值函数，从而有效适应并发现新状态。

When a Reinforcement Learning Agent Encounters Unknown Unknowns

BriefGPT - AI 论文速递 ·

本研究提出了RL$^V$，有效解决了强化学习中价值函数利用不足的问题。通过同时训练大语言模型作为推理器和生成验证器，显著提升了MATH任务的准确率和计算效率。

Reintroducing Value in Reinforcement Learning: Achieving Better Test Time Scaling through Unified Large Language Model Inference and Validation

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法PDPPO，旨在解决传统强化学习在高维随机环境中价值函数估计不准确的问题。通过引入决策后状态和双重评论器，PDPPO显著提高了估计精度，并在测试中展现出更快、更一致的学习能力。

Reinforcement Learning Method for Stochastic Variable Environments: Decision-Post Proximal Policy Optimization with Dual Critic Networks

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法——切换非平稳马尔可夫决策过程（SNS-MDP），旨在解决非平稳环境中强化学习算法无法收敛的问题。研究表明，在固定策略下，SNS-MDP的价值函数可以通过马尔可夫链的统计特性得到解析解，且时间差分学习方法在非平稳情况下仍能收敛，具有重要的理论和实际应用意义。

Reinforcement Learning in Non-Stationary Markov Decision Processes: Algorithms and Convergence Analysis

BriefGPT - AI 论文速递 ·

本研究提出了一种基于视频数据的价值函数，旨在解决在线强化学习中稀疏奖励导致的反馈不足问题。该方法利用多样的数据源，展现出良好的迁移效果和泛化能力，有望提升在线强化学习的效果与效率。

ViVa: Video-Trained Value Functions for Guiding Online Reinforcement Learning from Diverse Data

BriefGPT - AI 论文速递 ·

本研究提出了一种名为MR.Q的统一无模型深度强化学习算法，旨在解决现有算法对特定基准和超参数调整的依赖。该方法通过模型基础表示近似线性化价值函数，在多样任务中展现出竞争力性能，为通用无模型深度强化学习奠定基础。

Towards General-Purpose Model-Free Reinforcement Learning

BriefGPT - AI 论文速递 ·

本文探讨了强化学习政策的时间解释，提出了时间策略分解（TPD）方法，通过期望未来结果（EFO）分解价值函数，揭示特定结果发生的时机，从而提升对政策的理解和奖励函数的优化。

通过时间策略分解实现可解释的强化学习

BriefGPT - AI 论文速递 ·

本文提出了一种新型强化学习算法，旨在解决机器人任务中对训练样本需求大的问题。该算法通过学习动作序列的Q值评价网络，从噪声轨迹中有效学习价值函数，尤其在复杂的人形控制任务中表现优异。

Reinforcement Learning Based on Action Sequences for Efficient Data Robot Learning

BriefGPT - AI 论文速递 ·

本研究解决了马尔可夫决策过程中的价值函数有限样本有效性问题，确保了强化学习的可靠性，提出了高维概率收敛保证及边界，建立了更快的收敛速率，并设计了在线计算的渐近协方差矩阵估计器。

具有线性函数逼近的时间差学习的统计推断

BriefGPT - AI 论文速递 ·

本研究提出了一种新算法KROPE，用于解决离线价值函数学习中的不稳定性。KROPE通过相似的奖励和状态-动作对来优化表示，提高学习稳定性，减少价值误差，并提供理论稳定性保障。

Stable Offline Value Function Learning Based on Dual Simulation

BriefGPT - AI 论文速递 ·

QMIX是一种基于价值的多智能体强化学习方法，支持集中训练和分散策略。研究中提出了QTRAN和GraphMIX等新算法，克服了现有方法的局限性，尤其在非合作游戏中表现优越。DFAC框架结合了分布式强化学习与价值函数分解，提升了多智能体环境的表现。最新的POWQMIX算法通过优化联合动作权重，进一步提高了训练效果。

多智能体强化学习中的状态值因子化研究

BriefGPT - AI 论文速递 ·

本文探讨了强化学习中的函数逼近问题，提出了Fitted Q-Iteration算法的边界不变量分析，解决了价值函数定义不唯一的问题，并分析了连续状态-动作空间的收敛性。研究还提出了基于控制理论的价值函数验证方法和新的训练算法Diffused Value Function (DVF)，展示了其在机器人基准测试中的有效性。

强化学习和最优控制中价值函数的连续性和光滑性

BriefGPT - AI 论文速递 ·

本文探讨了深度强化学习中的多种方法，包括基于参数的价值函数和演员-评论家框架。研究提出了一种新的状态-值函数逼近方法，解决了高维动作表示问题，并在稀疏奖励任务中表现出色。此外，介绍了VA-learning和CSVE等新算法，提升了样本效率和策略优化效果，具有实际应用价值。

Vlearn：基于高效状态 - 价值函数估计的离策学习

BriefGPT - AI 论文速递 ·

本文提出了一种非参数的加性模型，用于估计强化学习中可解释的价值函数。该方法通过局部核回归和基扩展来获取动作价值函数的稀疏、加性表示，实现局部逼近和提取特征的非线性、独立贡献以及特征对的共同贡献。通过模拟研究验证了该方法，并在脊椎疾病的应用中揭示了与相关临床知识一致的康复建议。

非参数叠加值函数：可解释性强的强化学习及其在外科恢复中的应用

BriefGPT - AI 论文速递 ·

在线规划，离线学习：通过基于模型的控制实现高效学习与探索

在线规划，离线学习：通过基于模型的控制实现高效学习与探索

OpenAI ·