本研究探讨了强化学习代理在未知状态下的挑战,提出了一种新方法——逐渐认知增长的情节马尔可夫决策过程(EMDP-GA)。该方法通过非信息化的价值扩展(NIVE)帮助代理初始化价值函数,从而有效适应并发现新状态。
本研究提出了RL$^V$,有效解决了强化学习中价值函数利用不足的问题。通过同时训练大语言模型作为推理器和生成验证器,显著提升了MATH任务的准确率和计算效率。
本研究提出了一种新方法PDPPO,旨在解决传统强化学习在高维随机环境中价值函数估计不准确的问题。通过引入决策后状态和双重评论器,PDPPO显著提高了估计精度,并在测试中展现出更快、更一致的学习能力。
本研究提出了一种新方法——切换非平稳马尔可夫决策过程(SNS-MDP),旨在解决非平稳环境中强化学习算法无法收敛的问题。研究表明,在固定策略下,SNS-MDP的价值函数可以通过马尔可夫链的统计特性得到解析解,且时间差分学习方法在非平稳情况下仍能收敛,具有重要的理论和实际应用意义。
本研究提出了一种基于视频数据的价值函数,旨在解决在线强化学习中稀疏奖励导致的反馈不足问题。该方法利用多样的数据源,展现出良好的迁移效果和泛化能力,有望提升在线强化学习的效果与效率。
本研究提出了一种名为MR.Q的统一无模型深度强化学习算法,旨在解决现有算法对特定基准和超参数调整的依赖。该方法通过模型基础表示近似线性化价值函数,在多样任务中展现出竞争力性能,为通用无模型深度强化学习奠定基础。
本文探讨了强化学习政策的时间解释,提出了时间策略分解(TPD)方法,通过期望未来结果(EFO)分解价值函数,揭示特定结果发生的时机,从而提升对政策的理解和奖励函数的优化。
本文提出了一种新型强化学习算法,旨在解决机器人任务中对训练样本需求大的问题。该算法通过学习动作序列的Q值评价网络,从噪声轨迹中有效学习价值函数,尤其在复杂的人形控制任务中表现优异。
本研究解决了马尔可夫决策过程中的价值函数有限样本有效性问题,确保了强化学习的可靠性,提出了高维概率收敛保证及边界,建立了更快的收敛速率,并设计了在线计算的渐近协方差矩阵估计器。
本研究提出了一种新算法KROPE,用于解决离线价值函数学习中的不稳定性。KROPE通过相似的奖励和状态-动作对来优化表示,提高学习稳定性,减少价值误差,并提供理论稳定性保障。
QMIX是一种基于价值的多智能体强化学习方法,支持集中训练和分散策略。研究中提出了QTRAN和GraphMIX等新算法,克服了现有方法的局限性,尤其在非合作游戏中表现优越。DFAC框架结合了分布式强化学习与价值函数分解,提升了多智能体环境的表现。最新的POWQMIX算法通过优化联合动作权重,进一步提高了训练效果。
本文探讨了强化学习中的函数逼近问题,提出了Fitted Q-Iteration算法的边界不变量分析,解决了价值函数定义不唯一的问题,并分析了连续状态-动作空间的收敛性。研究还提出了基于控制理论的价值函数验证方法和新的训练算法Diffused Value Function (DVF),展示了其在机器人基准测试中的有效性。
本文探讨了深度强化学习中的多种方法,包括基于参数的价值函数和演员-评论家框架。研究提出了一种新的状态-值函数逼近方法,解决了高维动作表示问题,并在稀疏奖励任务中表现出色。此外,介绍了VA-learning和CSVE等新算法,提升了样本效率和策略优化效果,具有实际应用价值。
本文提出了一种非参数的加性模型,用于估计强化学习中可解释的价值函数。该方法通过局部核回归和基扩展来获取动作价值函数的稀疏、加性表示,实现局部逼近和提取特征的非线性、独立贡献以及特征对的共同贡献。通过模拟研究验证了该方法,并在脊椎疾病的应用中揭示了与相关临床知识一致的康复建议。
我们提出了一种名为POLO的在线与离线学习框架,旨在帮助代理在持续行动和学习中优化局部轨迹,稳定并加速价值函数的学习,同时通过近似价值函数减少规划时间,提高策略效果。该方法在复杂控制任务中表现优异,如人形运动和灵巧操作。
完成下面两步后,将自动完成登录并继续当前操作。