本研究提出了一种新方法——蒙特卡洛束搜索(MCBS),结合了束搜索、蒙特卡洛回路和TD3,有效解决了传统方法的探索不足问题。实验结果显示,MCBS在多个基准测试中优于传统TD3。
本研究针对6G网络中虚拟化网络功能(VNF)管理中的服务功能链(SFC)划分问题,提出了一种基于变换器的演员-评论家框架。该方法通过自注意机制有效建模VNF之间的复杂依赖关系,提升了训练的稳定性和收敛性,实验证明该框架在长期接受率、资源利用效率和可扩展性方面超越了现有技术。在6G环境下,为智能网络编排提供了一种可扩展且强大的解决方案。
本研究提出顾问-演员-评论家(AAC)方法,旨在解决强化学习在高精度控制任务中的稳态误差问题。AAC结合反馈控制理论与强化学习的自适应能力,通过顾问指导演员优化控制行为,从而显著提高目标实现的精度。基准测试结果表明,AAC在高精度任务中优于传统强化学习算法。
本研究解决了深度强化学习(RL)在高维数据中信贷分配效率的不足,提出了一种基于去相关反向传播算法的在线去相关新方法。通过将去相关矩阵融入到RL训练流程中,实验结果显示该方法在提高训练速度和奖励表现方面具有显著影响,尤其是在Atari 100k基准测试中,训练时间减少约50%。
本研究提出了一种结合软演员-评论家强化学习与数字孪生技术的方法,以解决智能制造中的适应性控制不足问题。该方法在机器人增材制造中实现了实时过程控制,展现出快速的策略收敛和稳健的任务执行能力,提升了增材制造的自适应实时控制能力。
本研究解决了演员-评论家算法的全局收敛性问题,显著改善了样本复杂性至 $O(\epsilon^{-3})$,超越了现有的局部收敛结果。通过证明评论家采用恒定步长足以确保期望收敛,与传统方法不同,我们的发现为依赖恒定步长的多种算法的实际成功提供了理论支持。
本研究提出了一种基于策略的强化学习方法,用于解决多无人机在未知环境中的探索挑战。该方法结合了近端策略优化和深度卷积神经网络与长短期记忆。实验证明该方法在避免碰撞的同时能够有效完成覆盖任务。
本文探讨贝叶斯方法在强化学习中的应用,强调其在动作选择和利用先验知识方面的优势。介绍了多种贝叶斯强化学习算法及其性能,提出了基于模型的新算法,强调样本效率和策略优化。这些方法在复杂环境中表现优越,适用于深度强化学习的多个领域。
本文研究了熵作为内在奖励在强化学习中的效果,特别是在软性演员-评论家(SAC)方法中。研究表明,熵奖励应谨慎使用,建议将其归一化为零或从策略评估中删除,以提升性能和鲁棒性。通过多项实验,提出的改进方法在多个控制任务中表现优越。
利用演员 - 评论家强化学习技术提高模型预测控制性能,通过演员模型提供初始猜测解以及评论家模型对轨迹进行评估确定最佳控制方案。
该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战,在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC,它通过自我对战来实现,灵感来自离线强化学习领域的平均悲观技术,将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral...
这篇论文介绍了一种名为 Diffusion Actor-Critic(DAC)的方法,用于解决离线强化学习中价值函数过高估计的问题,并通过扩散模型来表示目标策略,进而通过 Kullback-Leibler(KL)约束策略迭代来规范化目标策略。该方法在 D4RL 基准上的实验表明,在几乎所有环境中,其性能优于现有的方法。
基于视频 - 语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中,通过在 Open X-Embodiment 数据上训练奖励模型,实现了比仅稀疏奖励模型更高效的策略训练,尽管存在显著的领域差异。使用 Meta-World...
本文介绍了一种新颖的基于模型的强化学习算法M2AC,该算法通过掩码机制根据模型可信度选择预测,显著提升了连续控制任务的性能。同时,研究了模型在策略优化中的作用,并提出了改进的样本效率方法,展示了在不确定环境下的应用潜力。
本研究探讨了强化学习中Actor-Critic算法的全局收敛性和最优性,证明了在使用神经网络时,算法以亚线性速率收敛于全局最优策略,并分析了共享神经结构和随机初始化对收敛性的影响,为神经策略梯度方法的优化提供了理论支持。
本研究利用深度强化学习控制器,实现了人形机器人在多种环境下的行走、转弯和爬楼梯等功能,具有强适应性和无需预训练的优点。通过模型预测损失函数,提升了四足机器人步行的样本效率,并结合在线规划和离线学习,提出了混合控制架构,增强了稳健性和脚步精确度。
本文提出了一种新的Mean Actor-Critic(MAC)算法,旨在优化离散动作连续状态的强化学习。该算法通过显式表示所有动作值来减少策略梯度估计的方差,并在多个控制领域和Atari游戏中表现出竞争力。此外,研究探讨了Actor-Critic算法的全局收敛性和最优性,提出了改进的性能界限,并在交通信号控制等应用中展示了其实用性。
本文对神经网络近似的NAC算法进行了有限时间分析,探讨了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上的作用。熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略。正则化导致了在正则化MDPs中的尖锐样本复杂度和网络宽度,这在策略优化中产生了有利的偏差-方差权衡。全局优化中实现演员神经网络的均匀逼近能力也被发现具有重要性。
自然语言处理社区评估大规模语言模型的生成文本质量,提出了一种名为CritiqueLLM的新型批判生成模型。该模型通过对话提示方法进行评估,结果显示与GPT-4相媲美,尤其在系统级相关性和无参考环境中表现优异。该模型具有可扩展性特性,生成的批评可作为反馈,提高语言模型的生成质量。
贝叶斯强化学习提供了解决不确定性决策问题的方法,但在高维状态转移分布中建模不确定性的计算复杂。本文提出了一种无模型方法,通过贝尔曼算子和贝叶斯探索网络来建模不确定性,并通过变分推断建模知识性不确定性。实验结果表明,该方法可以学习到真正的贝叶斯最优策略。
完成下面两步后,将自动完成登录并继续当前操作。