本研究提出了一种无模型的强化学习框架,解决了在处理Omega-正则规范时奖励信号与规范语义不匹配的问题。该方法将绝对活跃规范转化为平均奖励目标,能够在未知的通信马尔可夫决策过程中实现更好的学习效果和收敛性,无需周期重置。
本研究提出了动态环境中目标识别的新定义,旨在提升实时目标识别系统的能力,采用无模型强化学习方法,展示了快速适应变化任务的能力。
本研究首次提供无模型强化学习智能体规划的机制性证据,展示其利用概念表示形成计划并预测行为的长期影响,推动相关研究进展。
本研究提出了一种无模型强化学习方法,旨在优化电网运营并提升稳定性。通过掩蔽拓扑动作空间,代理在20种仿真场景中有效降低电力损耗,促进现代能源系统的自主管理。
本文探讨了多步时间差(TD)学习算法在“致命三合一”场景中的应用,证明了在足够大的采样时间范围内,n步TD学习算法能够收敛到有效解决方案,为无模型强化学习提供了理论支持。
本研究探讨无模型强化学习代理在缺乏规划机制下如何表现出类似人类的快速思维,提出将系统1与系统2进行对比的新框架,挑战传统观点,表明意图性可在无模型代理的反应性行为中体现,对人工智能的伦理使用和监管具有重要影响。
本研究提出了一种新颖的无模型强化学习框架,旨在解决航运网络设计问题(LSNDP),显著提升海运路线设计的经济效率与竞争力。
本研究使用层次学习和规划框架,通过试错和模型生成轨迹的方法,赋予飞行器在未知和部分可观察环境中适应敏捷性的能力。通过在线无模型强化学习和预训练微调奖励机制,在仿真和实际硬件验证中证明了该方法比常数敏捷度基准和替代方法更有效和安全。
本研究介绍了“Box o Flows”系统,用于评估强化学习算法在动态实际环境中的应用,并演示了无模型强化学习算法合成复杂行为的能力。同时探讨了离线强化学习在数据高效假设测试中的作用,这些见解将支持开发可应用于复杂动态系统的系统化强化学习算法。
本文介绍了平均场强化学习方法,用于处理智能体之间的互动,开发了多个基于 Q-learning 和 Actor-Critic 的平均场算法模型,并验证了其有效性。作者还成功使用无模型的强化学习方法解决了伊辛模型问题。
完成下面两步后,将自动完成登录并继续当前操作。