标签

 强化学习 

相关的文章:

探索强化学习的优化方法与应用,包括基于大型语言模型的成本函数设计、多智能体强化学习的应用等。

体育馆:强化学习环境的标准接口

原文约300字,阅读约需1分钟。发表于:

Gymnasium 是一个开源库,提供了一个强化学习环境的 API,其主要作用是为基准环境和训练算法之间的广义互操作性提供了一个中心抽象。Gymnasium 配备了各种内置环境和实用工具,以简化研究人员的工作,并受到大多数训练库的支持。本文概述了 Gymnasium 的主要设计决策、其关键特性以及与其他 API 的区别。

编写特定量子硬件的量子电路是具有挑战性的任务,为了充分利用有限的资源,可以使用强化学习(RL)来优化编译过程。qgym是一个从OpenAI Gym派生的软件框架,专门针对量子编译的环境。它可用于训练和测试RL代理和算法。

相关推荐 去reddit讨论

SoNIC:基于自适应合规性推断和受限强化学习的安全社交导航

原文约400字,阅读约需1分钟。发表于:

通过将自适应符合推断(ACI)与约束强化学习(CRL)相结合,我们提出了首个算法 SoNIC,以增强强化学习(RL)策略的安全性,从而为社会导航学习安全策略并避免与行人碰撞的问题。我们的方法通过在 RL 观测中引入 ACI...

SoNIC是一种结合了自适应符合推断和约束强化学习的算法,用于增强强化学习策略的安全性,避免与行人碰撞。该方法通过引入非符合度分数和安全约束,为机器人提供明确的引导,避免进入安全风险区域。SoNIC在安全性和社会规范方面表现出更高性能,并具有更强的鲁棒性。

相关推荐 去reddit讨论

MOMAland:多目标多智能体强化学习的一套基准测试

原文约200字,阅读约需1分钟。发表于:

在多目标多智能体强化学习领域,我们引入了 MOMAland,这是第一个用于多目标多智能体强化学习的标准化环境集合,旨在支持该领域的发展,并提供了算法和强大的基线模型。

本文介绍了SMART,一个用于多机器人强化学习的仿真平台,包含仿真环境和真实多机器人系统,提供多样化的交互场景进行训练,并支持基于插件的算法实现。开源仿真环境、基准测试任务和基线模型,推动多机器人强化学习研究。

相关推荐 去reddit讨论

基于强化学习的适应性不更正场地 DRAM 错误抵制

原文约300字,阅读约需1分钟。发表于:

本文提出了一种自适应方法来触发未纠正错误的缓解,该方法基于预测方法,考虑了未纠正错误的可能性和当前潜在成本。通过使用经典机器学习度量及成本效益分析评估了该方法,在 MareNostrum 超级计算机的两年生产日志中,与无缓解相比,我们的方法将失去的计算时间减少了 54%,仅低于最优 Oracle 方法的 6%。所有源代码开源。

本文提出了一种自适应方法来触发未纠正错误的缓解,通过预测方法考虑了未纠正错误的可能性和当前潜在成本。在 MareNostrum 超级计算机的生产日志中,该方法将失去的计算时间减少了 54%,仅低于最优 Oracle 方法的 6%。

相关推荐 去reddit讨论

离线强化学习中的扩散模型作为高效规划器

原文约400字,阅读约需1分钟。发表于:

通过将扩散模型的采样过程分解为两个解耦的子过程,本文提出了 Trajectory Diffuser 方法,利用更快的自回归模型处理可行轨迹的生成,同时保留了扩散模型的轨迹优化过程,从而实现了更高效的规划而不牺牲能力。在 D4RL 基准上的实验结果表明,与之前的序列建模方法相比,我们的方法在推理速度和总体性能方面均比它们表现出更高的效果。

本文介绍了一种名为“层次性扩散器”的规划方法,结合了层次化和基于扩散的规划的优点。该方法在更高的层次上采用“跳跃”规划策略,拥有更大的感受域,计算成本较低。实验证实了该方法在培训和规划速度方面的卓越性能和效率。同时,探讨了该方法在复合性的分布任务中提高泛化能力的情况。

相关推荐 去reddit讨论

分布式强化学习中的策略评估算法

发表于:

用分布动态规划算法来近似求解包括具有连续奖励分布以及潜在重尾特性在内的马尔科夫决策过程中未知的回报分布,通过引入分位数样条离散化的概念,该算法在模拟实验中显示出有希望的结果,为 DRL 中常用的概率度量推导了新的性质。

相关推荐 去reddit讨论

ROLeR: 离线强化学习中的有效奖励塑形在推荐系统中的应用

原文约300字,阅读约需1分钟。发表于:

通过在线推荐系统中非参数奖励塑造方法和更具代表性的不确定性惩罚设计,提出了一种新颖的基于模型的离线强化学习方法,ROLeR,用于推荐系统中的奖励和不确定性估计,并通过四个基准数据集上的广泛实验验证了其在性能方面的表现。

该论文研究了在线学习互动推荐系统的问题,并提出了一种离线强化学习框架来解决。该方法通过最大化用户奖励,在推荐方面表现出优越性能。

相关推荐 去reddit讨论

约束强化学习的政策梯度最后迭代全局收敛

原文约200字,阅读约需1分钟。发表于:

通过梯度下降的原始对偶算法,我们提出了一种通用框架来解决受限强化学习问题,并介绍了基于动作和参数的版本 C-PGAE 和 C-PGPE。我们在受约束控制问题上进行了数值验证,并与最先进的基准进行了比较,证明了算法的有效性。

通过梯度下降的原始对偶算法,提出了通用框架解决受限强化学习问题,介绍了C-PGAE和C-PGPE版本。数值验证和基准比较证明了算法的有效性。

相关推荐 去reddit讨论

G-PCGRL:基于强化学习的程序化图数据生成

原文约400字,阅读约需1分钟。发表于:

我们提出了一种使用强化学习进行图数据的程序化生成的新方法 G-PCGRL,该方法能够快速可靠地生成基于图的内容,支持和激励游戏设计师在游戏创作过程中。

本文介绍了一种创新方法PCGPT框架,利用离线强化学习和Transformer网络生成游戏关卡。PCGPT解决了传统PCG方法中的问题,生成了更复杂和多样化的游戏内容。在Sokoban游戏中评估结果表明,PCGPT具有增强游戏设计和在线内容生成的潜力。

相关推荐 去reddit讨论

强化学习的受限内在动机

发表于:

该研究探讨了在无奖励预训练和探索过程中利用内在动机进行强化学习时出现的两个基本问题:如何设计有效的内在目标,并在探索过程中减少内在目标引入的偏差。通过提出具有约束的内在动机方法,在无奖励预训练和探索过程中解决了现有方法存在的静态技能、有限状态覆盖、样本效率低和次优性等问题,并在多个 MuJoCo 机器人环境中进行了验证和性能对比。

相关推荐 去reddit讨论