小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文研究了受随机阈值约束的约束马尔可夫决策过程(CMDP),提出了随机悲观-乐观阈值(SPOT)算法,以确保强化学习在不确定环境中的安全性,并证明其在奖励后悔和约束违反方面的优越性。

在不确定环境中确保安全:通过随机阈值的约束MDP

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本文综述了基于马尔可夫决策过程(MDP)的方法,提出了多种算法和表示方式,以解决人工智能中的规划问题。研究涵盖了启发式搜索、状态相似性度量、值迭代算法及强化学习中的抽象机制,并探讨了RMDPs的应用潜力,解决了传统MDP的局限性。

基于MDP抽象的规划中的投影抽象

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

该研究提出了一种新算法,通过降低置信度空间维度来解决部分观察马尔可夫决策过程(POMDPs),并成功应用于移动机器人导航等任务。研究还探讨了多智能体情境下的代理模型、粒子滤波算法及领域知识在POMDP策略学习中的应用,显著提高了解决效率和准确度。

在假设驱动的信念MDP中解决多动态模型的不确定性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z
宣布Azure DevOps托管DevOps池(MDP)正式上线

Azure DevOps托管DevOps池正式推出,旨在提升开发者生产力并降低云基础设施费用。该服务支持快速创建定制DevOps池,具备灵活性和易维护性。新功能包括多个Azure区域支持、代理支持及Ubuntu 24.04支持,未来将增加基于容器的代理和SPOT虚拟机支持等功能。

宣布Azure DevOps托管DevOps池(MDP)正式上线

Azure DevOps Blog
Azure DevOps Blog · 2024-11-18T17:39:02Z

本文研究了在未知转移和对抗性奖励下的线性混合MDP动态遗憾问题,提出了一种新算法,结合占用测度与策略方法,有效应对动态环境,实现了近优性能。

对抗性线性混合MDP的近优动态遗憾

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本文探讨了强化学习中的新方法,研究如何在没有显式访问马尔可夫决策过程(MDP)状态的情况下,利用历史互动模型进行学习。提出了改进的后悔边界和状态聚合误差界限,并介绍了基于特征聚合的政策迭代方法及其与深度强化学习的关系。此外,提出了新的算法以解决连续状态和动作空间中的无悔学习问题,推动了无悔强化学习的可行性和学习能力。

揭秘线性MDP和新颖的动态聚合框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

该研究探讨了策略梯度方法在强化学习中的应用,分析了其收敛性和性能保证。结果表明,策略梯度算法在平均奖励马尔可夫决策过程中的收敛速度为O(log(T)),并提供了有限时间的性能保证,强调了与折扣奖励的区别。

具有一般状态和动作的有限时域MDP政策优化的概述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

本研究解决了在折扣MDP中优化风险厌恶目标的难题,提出了在熵风险度量(ERM)和熵风险价值(EVaR)风险度量下,使用状态政策来简化分析和实现过程。研究表明,相较于折扣标准,总奖励标准在广泛的风险厌恶强化学习领域中可能更为优越。

在风险厌恶总奖励MDP中,状态政策是最优的

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-30T00:00:00Z

本文提出了一种新型策略搜索方法APDO,旨在优化受限马尔可夫决策过程(CMDPs)。实验结果表明,APDO在机器人运动任务中具有更高的采样效率和更快的收敛速度。此外,研究探讨了策略梯度方法在强化学习中的应用,并提出多种算法以解决CMDPs中的约束问题,确保低遗憾和约束违反界限。

用于连续空间约束MDP的确定性策略梯度原始-对偶方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z
Azure DevOps推出Managed DevOps Pools (MDP)公开预览版

Azure DevOps公开预览了Managed DevOps Pools (MDP),这是一个允许团队创建自定义DevOps池的功能。MDP结合了Scale Set代理的灵活性和Microsoft Hosted代理的易维护性。它减少了管理代理的时间,支持为不同工作负载创建特定池,优化了DevOps计费,并实现了可扩展性。MDP提供了快速启动镜像、待机代理、私有网络、有状态代理以及选择不同的Azure SKU系列等显著功能。团队可以在首选的地理位置创建池。Managed DevOps Pools现已提供公开预览。

Azure DevOps推出Managed DevOps Pools (MDP)公开预览版

Azure DevOps Blog
Azure DevOps Blog · 2024-08-02T18:39:35Z

本文研究了基于代数决策图的马尔可夫决策过程(MDP)值迭代算法,提出了多种优化方法以降低计算复杂度和提升效率,探讨了符号动态规划和几何策略迭代等技术在大规模MDP中的应用,强调了其在机器人和无人系统中的潜在价值。

MDP 几何、归一化和无价值解算器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

本文研究了数据中心中多个负载均衡器的网络负载均衡问题,提出了一种全分布式的多智能体强化学习算法,并通过仿真实验证明其优越性。同时,探讨了马尔可夫决策过程的优化方法及其在农业生产力和在线广告平台中的应用,显示出良好的性能和效率提升。

在线学习弱耦合的 MDP 策略用于负载均衡和自动缩放

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-20T00:00:00Z

本文研究了在表格化马尔可夫决策过程中针对策略评估目的的安全数据收集。我们考虑了行为策略的安全性约束,并提出了一种算法来近似安全的预言算法,并保证其满足安全性约束。通过模拟实验证明该算法在满足约束条件的情况下能够产生低均方误差的策略评估结果。

SaVeR: 基于表格型 MDP 的安全策略评估的最优数据收集策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-04T00:00:00Z

我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法,并建立了新的离线评估引理和 LMDPs 的新覆盖系数,通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题,特别是部分观测环境中,具有重要价值。

潜在 MDP 中的强化学习是可行的:通过离线策略评估实现在线保证

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

我们提出了一种新的算法 ILARL 用于无限时间线性 MDP 中的模仿学习,该算法大大改进了学习者需要从环境中采样的轨迹数量的界限,并且从 ε 的收敛速度从 O (ε^-5) 改进到 O (ε^-4),我们的结果建立在模仿学习与带有对抗性损失的 MDPs 在线学习之间的联系上。此外,我们基于有限时间线性 MDP 为 ILARL 提供了一项更为强大的结果,实现了 O (ε^-2)...

免去探索假设的折扣线性 MDP 中的模仿学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-03T00:00:00Z

研究了异构环境下联邦强化学习中的收敛感知采样与筛选聚合方案(CAESAR),通过将同一马尔可夫决策过程中学习的代理的知识有选择地吸收到更优的对应代理中,显著提高学习效率

CAESAR: 通过收敛感知采样和筛选增强异构 MDP 中的联邦强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-29T00:00:00Z

本文介绍了一种新的Q-learning类型算法,通过使用经过熵正则化的软策略来减少学习零和随机博弈的计算成本,并验证了该算法收敛于纳什平衡并具有更快的加速效果。

线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-04T00:00:00Z

该研究提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法,用于解决无奖励的强化学习问题。该方法可以在提供任意外界奖励的情况下,实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度。这是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。

离线约束强化学习的低秩 MDP 原始 - 对偶算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-07T00:00:00Z

本文介绍了一种新型的策略梯度原始-对偶算法,具有均匀概率近似正确性保证。该算法在收敛至最优策略、次线性遗憾和多项式样本复杂度方面具有理论保证,并在一个简单的CMDP示例中进行了实证展示。结果表明,该算法能够收敛至最优策略,而现有算法则表现出振荡性能和约束违规。

一种具有均匀 PAC 保证的限制 MDP 的策略梯度原始对偶算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-31T00:00:00Z

本研究探讨了基于生成模型的平均回报马尔科夫决策过程(MDP)中学习 ε- 最优策略的样本复杂度。结果表明,在参数 S、A、H 和 ε 上是极小极大最优的,并进一步改进了现有工作。该研究将平均回报 MDP 简化为折扣 MDP,并对 γ 折扣 MDP 进行了改进的界限。分析结果显示,在 γ≥1-1/H 的情况下,采样 Ω(SA (H/((1-γ)^2ε^2))) 足以在弱通信 MDP 中学习 ε- 最优策略。该研究还对某些实例相关方差参数进行了上界估计,具有广泛的应用。

基于区间的平均奖励 MDP 的最优样本复杂度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-22T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码