本研究提出了一种新方法——蒙特卡洛束搜索(MCBS),结合了束搜索、蒙特卡洛回路和TD3,有效解决了传统方法的探索不足问题。实验结果显示,MCBS在多个基准测试中优于传统TD3。
本研究针对6G网络中虚拟化网络功能(VNF)管理中的服务功能链(SFC)划分问题,提出了一种基于变换器的演员-评论家框架。该方法通过自注意机制有效建模VNF之间的复杂依赖关系,提升了训练的稳定性和收敛性,实验证明该框架在长期接受率、资源利用效率和可扩展性方面超越了现有技术。在6G环境下,为智能网络编排提供了一种可扩展且强大的解决方案。
本研究提出顾问-演员-评论家(AAC)方法,旨在解决强化学习在高精度控制任务中的稳态误差问题。AAC结合反馈控制理论与强化学习的自适应能力,通过顾问指导演员优化控制行为,从而显著提高目标实现的精度。基准测试结果表明,AAC在高精度任务中优于传统强化学习算法。
本研究解决了深度强化学习(RL)在高维数据中信贷分配效率的不足,提出了一种基于去相关反向传播算法的在线去相关新方法。通过将去相关矩阵融入到RL训练流程中,实验结果显示该方法在提高训练速度和奖励表现方面具有显著影响,尤其是在Atari 100k基准测试中,训练时间减少约50%。
本研究提出了一种结合软演员-评论家强化学习与数字孪生技术的方法,以解决智能制造中的适应性控制不足问题。该方法在机器人增材制造中实现了实时过程控制,展现出快速的策略收敛和稳健的任务执行能力,提升了增材制造的自适应实时控制能力。
本研究提出了一种改进的文本到SQL转换方法——演员-评论家(AC)方法,通过设计演员和评论家角色,迭代生成和评估SQL查询,显著提高了转换性能。
本研究解决了演员-评论家算法的全局收敛性问题,显著改善了样本复杂性至 $O(\epsilon^{-3})$,超越了现有的局部收敛结果。通过证明评论家采用恒定步长足以确保期望收敛,与传统方法不同,我们的发现为依赖恒定步长的多种算法的实际成功提供了理论支持。
本研究提出了一种基于策略的强化学习方法,用于解决多无人机在未知环境中的探索挑战。该方法结合了近端策略优化和深度卷积神经网络与长短期记忆。实验证明该方法在避免碰撞的同时能够有效完成覆盖任务。
该文章介绍了一种基于模型的强化学习算法,适用于大规模或无限状态空间。该算法通过探索和利用阶段来维护一组与当前体验一致的动态模型,并通过查找引起高度分歧的策略来进行探索。该算法在实现和最优规划的假设下能够得到完美的政策,并使用神经网络进行实用近似,证明了在实践中的性能和样本效率。
我们提出了一种新的最大熵强化学习框架EBFlow,集成了策略评估和策略改进步骤,支持多模态动作分布建模。实验结果显示,EBFlow在高维机器人任务上优于传统方法。
利用演员 - 评论家强化学习技术提高模型预测控制性能,通过演员模型提供初始猜测解以及评论家模型对轨迹进行评估确定最佳控制方案。
该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战,在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC,它通过自我对战来实现,灵感来自离线强化学习领域的平均悲观技术,将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral...
该文章介绍了决策感知的联合目标,用于训练演员和评论家,并解决了目标不匹配的问题。作者提出了通用的Actor-critic算法,并通过简单的赌博机示例证明了评论家目标的好处。实验证明了决策感知的Actor-critic框架的好处。
这篇论文介绍了一种名为 Diffusion Actor-Critic(DAC)的方法,用于解决离线强化学习中价值函数过高估计的问题,并通过扩散模型来表示目标策略,进而通过 Kullback-Leibler(KL)约束策略迭代来规范化目标策略。该方法在 D4RL 基准上的实验表明,在几乎所有环境中,其性能优于现有的方法。
基于视频 - 语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中,通过在 Open X-Embodiment 数据上训练奖励模型,实现了比仅稀疏奖励模型更高效的策略训练,尽管存在显著的领域差异。使用 Meta-World...
本文研究了模型在强化学习算法中的使用,提出了一种基于模型的算法,并探讨了模型在策略优化中的作用。作者展示了一种简单的方法,使用短模型生成滚动数据,具有比其他方法更好的样本效率,并能处理其他算法不能处理的问题。
本文分析了神经网络近似的NAC算法,探讨了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上的作用。熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略。正则化导致了在正则化MDPs中的尖锐样本复杂度和网络宽度,这在策略优化中产生了有利的偏差-方差权衡。全局优化中实现演员神经网络的均匀逼近能力也被发现具有重要性。
研究者提出了一种基于深度强化学习技术的高效步态规划方法,能够在具有障碍物的局部环境中进行导航。通过仿真和在RoboCup 2023比赛中的实际部署验证了该方法的有效性。
该研究提出了有限时间全局收敛分析方法,针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。研究表明,策略梯度迭代以 O(log(T)) 的速率收敛到最优策略,并获得了 O(log(T)) 的后悔度保证。研究还重新审视和改进了折扣奖励马尔可夫决策过程的性能界限,并通过模拟评估了平均奖励策略梯度算法的性能。
本文对神经网络近似的NAC算法进行了有限时间分析,探讨了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上的作用。熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略。正则化导致了在正则化MDPs中的尖锐样本复杂度和网络宽度,这在策略优化中产生了有利的偏差-方差权衡。全局优化中实现演员神经网络的均匀逼近能力也被发现具有重要性。
完成下面两步后,将自动完成登录并继续当前操作。