本研究提出了一种新的框架——认识模糊马尔可夫决策过程(EA-MDP),旨在解决在线决策中的复杂性问题。通过量子测量技术计算奖励函数,验证了在认识模糊情况下存在最优策略和价值函数,实验结果表明代理能够收敛到最优策略。
本研究探讨了通用约束马尔可夫决策过程的近似计算复杂性,提出了一种多项式时间的$(0, ext{ε})$-加性双标准近似算法,旨在寻找最优约束策略并解决多个复杂性问题。
本研究探讨了外部性下的贝叶斯说服问题,提出了一种新方法,通过信号传递影响多代理决策,并计算最优信号策略。研究表明,在限制最大偏离代理数的情况下,可以在多项式时间内获得最优解,强调信号策略设计对决策协调的重要性。
本研究探讨了逆强化学习中智能体偏好建模的识别问题,特别是非指数折扣智能体的情况。研究发现,逆强化学习通常无法获取足够的信息来准确识别偏好函数,从而影响智能体的最优策略求解。
本文介绍了多种基于强化学习和深度学习的方法,旨在优化金融工程中的决策问题,如期权定价和最优策略学习。研究提出了有效的算法和框架,解决了建模不确定性和高计算成本的问题,并展示了在不同环境下的实证性能和优势。
本文提出了一种基于模型的对抗元强化学习算法,通过最小化次优差异和对抗任务来寻找最优策略,从而提升算法在任务分布变化下的泛化能力和性能。实验结果表明,该算法在多个领域表现优异,具有更高的回报和样本利用效率。
本研究利用强化学习算法(PPO和RPO)控制微型机器人群在水力影响下到达目标,展示了课程学习提升性能的能力。研究了智能微型游泳机器人的自主适应行为与最优策略学习,并提出了基于SwarMDP框架的逆向强化学习算法,有效生成本地奖励模型。
通过von Neumann最小极大定理研究在线凸优化游戏的最优策略遗憾,证明了遗憾与经验最小化算法的行为密切相关,具有几何解释,可视为Jensen不等式中的差距。给出了在线学习问题的最优策略上下界限制,提供了无需构建学习算法的上界和对抗者的明确最优策略的下界。
本研究探讨了基于生成模型的平均回报马尔科夫决策过程(MDP)中学习 ε- 最优策略的样本复杂度。结果表明,在参数 S、A、H 和 ε 上是极小极大最优的,并进一步改进了现有工作。该研究将平均回报 MDP 简化为折扣 MDP,并对 γ 折扣 MDP 进行了改进的界限。分析结果显示,在 γ≥1-1/H 的情况下,采样 Ω(SA (H/((1-γ)^2ε^2))) 足以在弱通信 MDP 中学习 ε- 最优策略。该研究还对某些实例相关方差参数进行了上界估计,具有广泛的应用。
本文提出了一种分布式深度强化学习资源分配技术,可用于协作无线电网络的多智能体环境。该算法能够迭代地收敛于一个平衡政策,具有更快的学习性能,并能够在足够长的学习时间内在 99% 的情况下找到最优策略。同时,证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。
该研究探讨了基于遗憾匹配算法在求解两人零和博弈中的最优策略时的迭代收敛性,并验证了部分实际变种算法在简单的3×3游戏中无法保证迭代收敛。研究还证明了最新变种算法在最优策略上存在渐进收敛以及1/√t的最优策略收敛,并引入了重启变种算法,证明它们在最优策略上可达到线性级别的收敛速度。
本文提出了一种针对协作无线电网络的分布式深度强化学习资源分配技术,能够迭代地收敛于一个平衡政策。仿真结果表明,该技术具有更快的学习性能,并能够在足够长的学习时间内在 99% 的情况下找到最优策略。同时,证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。
完成下面两步后,将自动完成登录并继续当前操作。