小红花·文摘

本研究提出了一种新的框架——认识模糊马尔可夫决策过程（EA-MDP），旨在解决在线决策中的复杂性问题。通过量子测量技术计算奖励函数，验证了在认识模糊情况下存在最优策略和价值函数，实验结果表明代理能够收敛到最优策略。

Quantum-Inspired Reinforcement Learning in the Presence of Epistemic Ambiguity

BriefGPT - AI 论文速递 ·

本研究探讨了通用约束马尔可夫决策过程的近似计算复杂性，提出了一种多项式时间的$(0, ext{ε})$-加性双标准近似算法，旨在寻找最优约束策略并解决多个复杂性问题。

约束强化学习的多项式时间近似性

BriefGPT - AI 论文速递 ·

本研究探讨了外部性下的贝叶斯说服问题，提出了一种新方法，通过信号传递影响多代理决策，并计算最优信号策略。研究表明，在限制最大偏离代理数的情况下，可以在多项式时间内获得最优解，强调信号策略设计对决策协调的重要性。

具有外部性的贝叶斯说服：利用代理类型

BriefGPT - AI 论文速递 ·

本研究探讨了逆强化学习中智能体偏好建模的识别问题，特别是非指数折扣智能体的情况。研究发现，逆强化学习通常无法获取足够的信息来准确识别偏好函数，从而影响智能体的最优策略求解。

Partial Identifiability of Agents with Non-Exponential Discounting in Inverse Reinforcement Learning

BriefGPT - AI 论文速递 ·

研究了离散折扣马尔可夫决策过程中的熵正则化误差，证明其在逆正则强度下以指数级别减小，并提供了梯度流与最优策略的关系，显示整体误差随迭代次数的平方根呈指数衰减。

基于Csiszár类型Tsallis熵的神经网络优化线性化势函数设计

BriefGPT - AI 论文速递 ·

本文提出了一种深度强化学习资源分配技术，适用于协作无线电网络，能够在非平稳环境中有效收敛至平衡策略。仿真结果表明，该技术的学习性能优于传统Q学习，99%的情况下能找到最优策略，学习步骤减少了一半。

认知无线电应用的多智能体强化学习测试平台

BriefGPT - AI 论文速递 ·

离线强化学习在实际应用中很重要，但策略需要在线微调。本文探讨了这一过程中的挑战，提出使用贝叶斯设计原则。智能体应基于对最优策略的信念行动，避免性能下降，确保找到最优策略。新算法在多项测试中表现出色，提高了离线数据学习的效率。

基于贝叶斯自适应的蒙特卡洛树搜索的离线模型强化学习

BriefGPT - AI 论文速递 ·

该文章介绍了一种名为CGPO的方法，用于优化混合离散-连续马氏决策过程中的策略参数。CGPO提供有界策略误差保证，并生成最优策略。实验证明了CGPO在各领域的适用性。

通过图形上界形式在稳健约束马尔可夫决策过程中识别近优策略

BriefGPT - AI 论文速递 ·

本文介绍了离线强化学习在真实世界应用中的重要性，并解决了离线到在线微调的困境。通过采用贝叶斯设计原则，智能体可以根据对最优策略的信念采取行动，避免性能突然下降，并找到最优策略。提出的新算法在基准测试中展示了有效性，为离线到在线RL提供了新的视角，使离线数据的学习更加有效。

通过引导搜索增强强化学习

BriefGPT - AI 论文速递 ·

本论文研究了联合强化学习在表格式情节马尔可夫决策过程中的应用。通过中央服务器的协调，多个代理在不共享原始数据的情况下学习最优策略。提出了两种联合 Q 学习算法，并证明了在时间范围足够大时，可以实现线性加速和对数通信成本。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。

线性 MDPs 中具有累积赌臂反馈的近最优遗憾

BriefGPT - AI 论文速递 ·

本文提出了一种分布式的深度强化学习资源分配技术，能够在协作无线电网络中迭代地收敛于平衡政策，无需与其他代理协调配合。该技术具有更快的学习性能，并能够在99%的情况下找到最优策略。与基于表格的实现相比，该方法只需不到一半的学习步骤即可实现相同性能。证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。

强化学习在空间资源分配中的应用调查

BriefGPT - AI 论文速递 ·

通过von Neumann最小极大定理研究在线凸优化游戏的最优策略遗憾，证明了遗憾与经验最小化算法的行为密切相关，具有几何解释，可视为Jensen不等式中的差距。给出了在线学习问题的最优策略上下界限制，提供了无需构建学习算法的上界和对抗者的明确最优策略的下界。

本研究探讨了基于生成模型的平均回报马尔科夫决策过程（MDP）中学习 ε- 最优策略的样本复杂度。结果表明，在参数 S、A、H 和 ε 上是极小极大最优的，并进一步改进了现有工作。该研究将平均回报 MDP 简化为折扣 MDP，并对 γ 折扣 MDP 进行了改进的界限。分析结果显示，在 γ≥1-1/H 的情况下，采样 Ω(SA (H/((1-γ)^2ε^2))) 足以在弱通信 MDP 中学习 ε- 最优策略。该研究还对某些实例相关方差参数进行了上界估计，具有广泛的应用。