本研究提出了一种无模型的强化学习框架,解决了在处理Omega-正则规范时奖励信号与规范语义不匹配的问题。该方法将绝对活跃规范转化为平均奖励目标,能够在未知的通信马尔可夫决策过程中实现更好的学习效果和收敛性,无需周期重置。
本研究提出了动态环境中目标识别的新定义,旨在提升实时目标识别系统的能力,采用无模型强化学习方法,展示了快速适应变化任务的能力。
本研究首次提供无模型强化学习智能体规划的机制性证据,展示其利用概念表示形成计划并预测行为的长期影响,推动相关研究进展。
本研究提出了一种无模型强化学习方法,旨在优化电网运营并提升稳定性。通过掩蔽拓扑动作空间,代理在20种仿真场景中有效降低电力损耗,促进现代能源系统的自主管理。
本文探讨了多步时间差(TD)学习算法在“致命三合一”场景中的应用,证明了在足够大的采样时间范围内,n步TD学习算法能够收敛到有效解决方案,为无模型强化学习提供了理论支持。
本研究探讨无模型强化学习代理在缺乏明确规划机制下表现出的意图性,结果表明这种意图性体现在代理的反应性行为中,对人工智能的伦理使用和监管具有重要影响。
本研究提出了一种新颖的无模型强化学习框架,旨在解决航运网络设计问题(LSNDP),显著提升海运路线设计的经济效率与竞争力。
本文探讨了通过参数化技能提升无模型强化学习在稀疏奖励任务中的样本效率。研究表明,显式建模任务模式的状态独立性有助于技能转移和任务解决。实验验证了该方法在机械手臂操作中的有效性,并提出了多种无监督技能发现算法,显著提高了机器人操作的性能和泛化能力。
本文提出了一种基于自适应数据驱动离散化的$Q$-学习算法,适用于大型状态-动作空间的无模型强化学习。研究了相似度度量在强化学习中的应用,提出了提高样本效率的新方法,并探讨了探索策略和状态抽象的学习。最后,通过符号回归生成的表达式提升了模型无关强化学习的样本效率。
本文提出了两种无模型强化学习算法,针对无限时间平均回报的马尔可夫决策过程(MDP)问题。第一种算法在弱通信MDP中简化为折扣回报,遗憾为O(T^(2/3));第二种算法改进至O(sqrt(T)),但需要更强的遍历条件。这些算法在计算效率和遗憾最小化方面取得了显著进展。
本文提出了一种算法,旨在优化弱交流马尔可夫决策过程中的后悔率。该算法通过正则化最优偏差向量的跨度,在每个周期选择策略,展示了O(HSpAT)的后悔界限。此外,研究探讨了无模型强化学习算法的收敛性及其在平均奖励MDP中的应用,提出了多种有效算法,并分析了策略梯度方法的收敛速度和性能保证。
本文介绍了一种基于一般价值函数逼近的无模型强化学习算法,旨在实现有效学习而不依赖环境模型。该算法通过乐观奖励采样和独立同分布噪声促进探索,并在特定任务上证明了其有效性。此外,研究探讨了风险敏感的分布式强化学习框架及其算法复杂度,提出了新的算法以提高探索效率和泛化能力。
本文探讨了无模型强化学习算法在马尔可夫决策过程中的应用,提出了基于乐观值迭代的算法、量子加速方法及成本约束下的优化策略。这些算法在探索效率、遗憾度和计算复杂度方面取得了显著改进,推动了强化学习理论的发展。
本文提出了多种无模型强化学习算法,旨在优化无限时间平均奖励的马尔可夫决策过程(MDP)。研究包括基于参考优势分解的在线算法、改进的遗憾界限以及处理模型不确定性的策略,提升了学习效率和计算性能,并通过数值实验验证了算法的有效性。
该研究探讨了模型不确定性对马尔科夫决策过程的影响,提出了多种无模型强化学习算法,以提高平均回报的估计和置信区间构建。研究包括针对无限时间持续的MDP问题的两种新算法,以及在满足成本约束下最大化累积奖励的策略优化方法,展示了在多种环境中的优越性能。
本文提出了一种高效的自适应数据驱动离散化的 $Q$-学习算法,适用于大型状态-动作空间的无模型强化学习。该算法通过自适应离散化平衡探索与开发,具备良好的性能保证和复杂度。此外,研究探讨了在线强化学习问题,提出了乐观估计算法,并在连续马尔可夫决策过程中实现了速率最优的样本复杂性。
本研究介绍了“Box o Flows”系统,用于评估强化学习算法在动态实际环境中的应用,并演示了无模型强化学习算法合成复杂行为的能力。同时探讨了离线强化学习在数据高效假设测试中的作用,这些见解将支持开发可应用于复杂动态系统的系统化强化学习算法。
本文介绍了平均场强化学习方法,用于处理智能体之间的互动,开发了多个基于 Q-learning 和 Actor-Critic 的平均场算法模型,并验证了其有效性。作者还成功使用无模型的强化学习方法解决了伊辛模型问题。
完成下面两步后,将自动完成登录并继续当前操作。