本文研究了受随机阈值约束的约束马尔可夫决策过程(CMDP),提出了随机悲观-乐观阈值(SPOT)算法,以确保强化学习在不确定环境中的安全性,并证明其在奖励后悔和约束违反方面的优越性。
本文综述了基于马尔可夫决策过程(MDP)的方法,提出了多种算法和表示方式,以解决人工智能中的规划问题。研究涵盖了启发式搜索、状态相似性度量、值迭代算法及强化学习中的抽象机制,并探讨了RMDPs的应用潜力,解决了传统MDP的局限性。
该研究提出了一种新算法,通过降低置信度空间维度来解决部分观察马尔可夫决策过程(POMDPs),并成功应用于移动机器人导航等任务。研究还探讨了多智能体情境下的代理模型、粒子滤波算法及领域知识在POMDP策略学习中的应用,显著提高了解决效率和准确度。
Azure DevOps托管DevOps池正式推出,旨在提升开发者生产力并降低云基础设施费用。该服务支持快速创建定制DevOps池,具备灵活性和易维护性。新功能包括多个Azure区域支持、代理支持及Ubuntu 24.04支持,未来将增加基于容器的代理和SPOT虚拟机支持等功能。
本文研究了在未知转移和对抗性奖励下的线性混合MDP动态遗憾问题,提出了一种新算法,结合占用测度与策略方法,有效应对动态环境,实现了近优性能。
本文探讨了强化学习中的新方法,研究如何在没有显式访问马尔可夫决策过程(MDP)状态的情况下,利用历史互动模型进行学习。提出了改进的后悔边界和状态聚合误差界限,并介绍了基于特征聚合的政策迭代方法及其与深度强化学习的关系。此外,提出了新的算法以解决连续状态和动作空间中的无悔学习问题,推动了无悔强化学习的可行性和学习能力。
该研究探讨了策略梯度方法在强化学习中的应用,分析了其收敛性和性能保证。结果表明,策略梯度算法在平均奖励马尔可夫决策过程中的收敛速度为O(log(T)),并提供了有限时间的性能保证,强调了与折扣奖励的区别。
本研究解决了在折扣MDP中优化风险厌恶目标的难题,提出了在熵风险度量(ERM)和熵风险价值(EVaR)风险度量下,使用状态政策来简化分析和实现过程。研究表明,相较于折扣标准,总奖励标准在广泛的风险厌恶强化学习领域中可能更为优越。
本文提出了一种新型策略搜索方法APDO,旨在优化受限马尔可夫决策过程(CMDPs)。实验结果表明,APDO在机器人运动任务中具有更高的采样效率和更快的收敛速度。此外,研究探讨了策略梯度方法在强化学习中的应用,并提出多种算法以解决CMDPs中的约束问题,确保低遗憾和约束违反界限。
Azure DevOps公开预览了Managed DevOps Pools (MDP),这是一个允许团队创建自定义DevOps池的功能。MDP结合了Scale Set代理的灵活性和Microsoft Hosted代理的易维护性。它减少了管理代理的时间,支持为不同工作负载创建特定池,优化了DevOps计费,并实现了可扩展性。MDP提供了快速启动镜像、待机代理、私有网络、有状态代理以及选择不同的Azure SKU系列等显著功能。团队可以在首选的地理位置创建池。Managed DevOps Pools现已提供公开预览。
本文研究了基于代数决策图的马尔可夫决策过程(MDP)值迭代算法,提出了多种优化方法以降低计算复杂度和提升效率,探讨了符号动态规划和几何策略迭代等技术在大规模MDP中的应用,强调了其在机器人和无人系统中的潜在价值。
本文研究了数据中心中多个负载均衡器的网络负载均衡问题,提出了一种全分布式的多智能体强化学习算法,并通过仿真实验证明其优越性。同时,探讨了马尔可夫决策过程的优化方法及其在农业生产力和在线广告平台中的应用,显示出良好的性能和效率提升。
本文研究了在表格化马尔可夫决策过程中针对策略评估目的的安全数据收集。我们考虑了行为策略的安全性约束,并提出了一种算法来近似安全的预言算法,并保证其满足安全性约束。通过模拟实验证明该算法在满足约束条件的情况下能够产生低均方误差的策略评估结果。
我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法,并建立了新的离线评估引理和 LMDPs 的新覆盖系数,通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题,特别是部分观测环境中,具有重要价值。
我们提出了一种新的算法 ILARL 用于无限时间线性 MDP 中的模仿学习,该算法大大改进了学习者需要从环境中采样的轨迹数量的界限,并且从 ε 的收敛速度从 O (ε^-5) 改进到 O (ε^-4),我们的结果建立在模仿学习与带有对抗性损失的 MDPs 在线学习之间的联系上。此外,我们基于有限时间线性 MDP 为 ILARL 提供了一项更为强大的结果,实现了 O (ε^-2)...
研究了异构环境下联邦强化学习中的收敛感知采样与筛选聚合方案(CAESAR),通过将同一马尔可夫决策过程中学习的代理的知识有选择地吸收到更优的对应代理中,显著提高学习效率
本文介绍了一种新的Q-learning类型算法,通过使用经过熵正则化的软策略来减少学习零和随机博弈的计算成本,并验证了该算法收敛于纳什平衡并具有更快的加速效果。
该研究提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法,用于解决无奖励的强化学习问题。该方法可以在提供任意外界奖励的情况下,实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度。这是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。
本文介绍了一种新型的策略梯度原始-对偶算法,具有均匀概率近似正确性保证。该算法在收敛至最优策略、次线性遗憾和多项式样本复杂度方面具有理论保证,并在一个简单的CMDP示例中进行了实证展示。结果表明,该算法能够收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
本研究探讨了基于生成模型的平均回报马尔科夫决策过程(MDP)中学习 ε- 最优策略的样本复杂度。结果表明,在参数 S、A、H 和 ε 上是极小极大最优的,并进一步改进了现有工作。该研究将平均回报 MDP 简化为折扣 MDP,并对 γ 折扣 MDP 进行了改进的界限。分析结果显示,在 γ≥1-1/H 的情况下,采样 Ω(SA (H/((1-γ)^2ε^2))) 足以在弱通信 MDP 中学习 ε- 最优策略。该研究还对某些实例相关方差参数进行了上界估计,具有广泛的应用。
完成下面两步后,将自动完成登录并继续当前操作。