小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新的框架——认识模糊马尔可夫决策过程(EA-MDP),旨在解决在线决策中的复杂性问题。通过量子测量技术计算奖励函数,验证了在认识模糊情况下存在最优策略和价值函数,实验结果表明代理能够收敛到最优策略。

Quantum-Inspired Reinforcement Learning in the Presence of Epistemic Ambiguity

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z

本研究探讨了通用约束马尔可夫决策过程的近似计算复杂性,提出了一种多项式时间的$(0, ext{ε})$-加性双标准近似算法,旨在寻找最优约束策略并解决多个复杂性问题。

约束强化学习的多项式时间近似性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究探讨了外部性下的贝叶斯说服问题,提出了一种新方法,通过信号传递影响多代理决策,并计算最优信号策略。研究表明,在限制最大偏离代理数的情况下,可以在多项式时间内获得最优解,强调信号策略设计对决策协调的重要性。

具有外部性的贝叶斯说服:利用代理类型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究探讨了逆强化学习中智能体偏好建模的识别问题,特别是非指数折扣智能体的情况。研究发现,逆强化学习通常无法获取足够的信息来准确识别偏好函数,从而影响智能体的最优策略求解。

Partial Identifiability of Agents with Non-Exponential Discounting in Inverse Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-15T00:00:00Z

研究了离散折扣马尔可夫决策过程中的熵正则化误差,证明其在逆正则强度下以指数级别减小,并提供了梯度流与最优策略的关系,显示整体误差随迭代次数的平方根呈指数衰减。

基于Csiszár类型Tsallis熵的神经网络优化线性化势函数设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本文提出了一种深度强化学习资源分配技术,适用于协作无线电网络,能够在非平稳环境中有效收敛至平衡策略。仿真结果表明,该技术的学习性能优于传统Q学习,99%的情况下能找到最优策略,学习步骤减少了一半。

认知无线电应用的多智能体强化学习测试平台

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

离线强化学习在实际应用中很重要,但策略需要在线微调。本文探讨了这一过程中的挑战,提出使用贝叶斯设计原则。智能体应基于对最优策略的信念行动,避免性能下降,确保找到最优策略。新算法在多项测试中表现出色,提高了离线数据学习的效率。

基于贝叶斯自适应的蒙特卡洛树搜索的离线模型强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

该文章介绍了一种名为CGPO的方法,用于优化混合离散-连续马氏决策过程中的策略参数。CGPO提供有界策略误差保证,并生成最优策略。实验证明了CGPO在各领域的适用性。

通过图形上界形式在稳健约束马尔可夫决策过程中识别近优策略

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本文介绍了离线强化学习在真实世界应用中的重要性,并解决了离线到在线微调的困境。通过采用贝叶斯设计原则,智能体可以根据对最优策略的信念采取行动,避免性能突然下降,并找到最优策略。提出的新算法在基准测试中展示了有效性,为离线到在线RL提供了新的视角,使离线数据的学习更加有效。

通过引导搜索增强强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-19T00:00:00Z

本论文研究了联合强化学习在表格式情节马尔可夫决策过程中的应用。通过中央服务器的协调,多个代理在不共享原始数据的情况下学习最优策略。提出了两种联合 Q 学习算法,并证明了在时间范围足够大时,可以实现线性加速和对数通信成本。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。

线性 MDPs 中具有累积赌臂反馈的近最优遗憾

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-13T00:00:00Z

本文提出了一种分布式的深度强化学习资源分配技术,能够在协作无线电网络中迭代地收敛于平衡政策,无需与其他代理协调配合。该技术具有更快的学习性能,并能够在99%的情况下找到最优策略。与基于表格的实现相比,该方法只需不到一半的学习步骤即可实现相同性能。证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。

强化学习在空间资源分配中的应用调查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-06T00:00:00Z

通过von Neumann最小极大定理研究在线凸优化游戏的最优策略遗憾,证明了遗憾与经验最小化算法的行为密切相关,具有几何解释,可视为Jensen不等式中的差距。给出了在线学习问题的最优策略上下界限制,提供了无需构建学习算法的上界和对抗者的明确最优策略的下界。

优化最小后悔度的无监督环境设计

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z

本研究探讨了基于生成模型的平均回报马尔科夫决策过程(MDP)中学习 ε- 最优策略的样本复杂度。结果表明,在参数 S、A、H 和 ε 上是极小极大最优的,并进一步改进了现有工作。该研究将平均回报 MDP 简化为折扣 MDP,并对 γ 折扣 MDP 进行了改进的界限。分析结果显示,在 γ≥1-1/H 的情况下,采样 Ω(SA (H/((1-γ)^2ε^2))) 足以在弱通信 MDP 中学习 ε- 最优策略。该研究还对某些实例相关方差参数进行了上界估计,具有广泛的应用。

基于区间的平均奖励 MDP 的最优样本复杂度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-22T00:00:00Z

本文提出了一种分布式深度强化学习资源分配技术,可用于协作无线电网络的多智能体环境。该算法能够迭代地收敛于一个平衡政策,具有更快的学习性能,并能够在足够长的学习时间内在 99% 的情况下找到最优策略。同时,证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。

零阶异步学习与有界延迟:通信网络资源分配应用实例

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-08T00:00:00Z

该研究探讨了基于遗憾匹配算法在求解两人零和博弈中的最优策略时的迭代收敛性,并验证了部分实际变种算法在简单的3×3游戏中无法保证迭代收敛。研究还证明了最新变种算法在最优策略上存在渐进收敛以及1/√t的最优策略收敛,并引入了重启变种算法,证明它们在最优策略上可达到线性级别的收敛速度。

遗憾匹配算法在博弈中的最后迭代收敛性质

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-01T00:00:00Z

本文提出了一种针对协作无线电网络的分布式深度强化学习资源分配技术,能够迭代地收敛于一个平衡政策。仿真结果表明,该技术具有更快的学习性能,并能够在足够长的学习时间内在 99% 的情况下找到最优策略。同时,证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。

深度强化学习在医疗资源高效公平分配中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码