小红花·文摘

本文讨论了后训练中的强化学习，重点介绍马尔可夫决策过程（MDP）、轨迹、回报、策略、价值函数和优势函数。强调了在语言模型生成中，奖励通常在序列末尾出现，导致信用分配和稀疏奖励问题。通过定义和贝尔曼期望方程，探讨了将语言生成视为MDP及其策略优化的挑战。

【强化学习与大模型后训练】02｜MDP、回报与贝尔曼方程

土法炼钢兴趣小组的博客 ·

本文研究了受随机阈值约束的约束马尔可夫决策过程（CMDP），提出了随机悲观-乐观阈值（SPOT）算法，以确保强化学习在不确定环境中的安全性，并证明其在奖励后悔和约束违反方面的优越性。

在不确定环境中确保安全：通过随机阈值的约束MDP

BriefGPT - AI 论文速递 ·

本文综述了基于马尔可夫决策过程（MDP）的方法，提出了多种算法和表示方式，以解决人工智能中的规划问题。研究涵盖了启发式搜索、状态相似性度量、值迭代算法及强化学习中的抽象机制，并探讨了RMDPs的应用潜力，解决了传统MDP的局限性。

基于MDP抽象的规划中的投影抽象

BriefGPT - AI 论文速递 ·

该研究提出了一种新算法，通过降低置信度空间维度来解决部分观察马尔可夫决策过程（POMDPs），并成功应用于移动机器人导航等任务。研究还探讨了多智能体情境下的代理模型、粒子滤波算法及领域知识在POMDP策略学习中的应用，显著提高了解决效率和准确度。

在假设驱动的信念MDP中解决多动态模型的不确定性

BriefGPT - AI 论文速递 ·

宣布Azure DevOps托管DevOps池（MDP）正式上线

Azure DevOps Blog ·

本文研究了在未知转移和对抗性奖励下的线性混合MDP动态遗憾问题，提出了一种新算法，结合占用测度与策略方法，有效应对动态环境，实现了近优性能。

对抗性线性混合MDP的近优动态遗憾

BriefGPT - AI 论文速递 ·

本文探讨了强化学习中的新方法，研究如何在没有显式访问马尔可夫决策过程（MDP）状态的情况下，利用历史互动模型进行学习。提出了改进的后悔边界和状态聚合误差界限，并介绍了基于特征聚合的政策迭代方法及其与深度强化学习的关系。此外，提出了新的算法以解决连续状态和动作空间中的无悔学习问题，推动了无悔强化学习的可行性和学习能力。

揭秘线性MDP和新颖的动态聚合框架

BriefGPT - AI 论文速递 ·

该研究探讨了策略梯度方法在强化学习中的应用，分析了其收敛性和性能保证。结果表明，策略梯度算法在平均奖励马尔可夫决策过程中的收敛速度为O(log(T))，并提供了有限时间的性能保证，强调了与折扣奖励的区别。

具有一般状态和动作的有限时域MDP政策优化的概述

BriefGPT - AI 论文速递 ·

本研究解决了在折扣MDP中优化风险厌恶目标的难题，提出了在熵风险度量（ERM）和熵风险价值（EVaR）风险度量下，使用状态政策来简化分析和实现过程。研究表明，相较于折扣标准，总奖励标准在广泛的风险厌恶强化学习领域中可能更为优越。

在风险厌恶总奖励MDP中，状态政策是最优的

BriefGPT - AI 论文速递 ·

本文提出了一种新型策略搜索方法APDO，旨在优化受限马尔可夫决策过程（CMDPs）。实验结果表明，APDO在机器人运动任务中具有更高的采样效率和更快的收敛速度。此外，研究探讨了策略梯度方法在强化学习中的应用，并提出多种算法以解决CMDPs中的约束问题，确保低遗憾和约束违反界限。

用于连续空间约束MDP的确定性策略梯度原始-对偶方法

BriefGPT - AI 论文速递 ·

Azure DevOps推出Managed DevOps Pools (MDP)公开预览版

Azure DevOps Blog ·

本文研究了基于代数决策图的马尔可夫决策过程（MDP）值迭代算法，提出了多种优化方法以降低计算复杂度和提升效率，探讨了符号动态规划和几何策略迭代等技术在大规模MDP中的应用，强调了其在机器人和无人系统中的潜在价值。

MDP 几何、归一化和无价值解算器

BriefGPT - AI 论文速递 ·

本文研究了数据中心中多个负载均衡器的网络负载均衡问题，提出了一种全分布式的多智能体强化学习算法，并通过仿真实验证明其优越性。同时，探讨了马尔可夫决策过程的优化方法及其在农业生产力和在线广告平台中的应用，显示出良好的性能和效率提升。

在线学习弱耦合的 MDP 策略用于负载均衡和自动缩放

BriefGPT - AI 论文速递 ·

本文研究了在表格化马尔可夫决策过程中针对策略评估目的的安全数据收集。我们考虑了行为策略的安全性约束，并提出了一种算法来近似安全的预言算法，并保证其满足安全性约束。通过模拟实验证明该算法在满足约束条件的情况下能够产生低均方误差的策略评估结果。

SaVeR: 基于表格型 MDP 的安全策略评估的最优数据收集策略

BriefGPT - AI 论文速递 ·

我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法，并建立了新的离线评估引理和 LMDPs 的新覆盖系数，通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题，特别是部分观测环境中，具有重要价值。

潜在 MDP 中的强化学习是可行的：通过离线策略评估实现在线保证

BriefGPT - AI 论文速递 ·

我们提出了一种新的算法 ILARL 用于无限时间线性 MDP 中的模仿学习，该算法大大改进了学习者需要从环境中采样的轨迹数量的界限，并且从 ε 的收敛速度从 O (ε^-5) 改进到 O (ε^-4)，我们的结果建立在模仿学习与带有对抗性损失的 MDPs 在线学习之间的联系上。此外，我们基于有限时间线性 MDP 为 ILARL 提供了一项更为强大的结果，实现了 O (ε^-2)...

免去探索假设的折扣线性 MDP 中的模仿学习

BriefGPT - AI 论文速递 ·

研究了异构环境下联邦强化学习中的收敛感知采样与筛选聚合方案（CAESAR），通过将同一马尔可夫决策过程中学习的代理的知识有选择地吸收到更优的对应代理中，显著提高学习效率

CAESAR: 通过收敛感知采样和筛选增强异构 MDP 中的联邦强化学习

BriefGPT - AI 论文速递 ·

本文介绍了一种新的Q-learning类型算法，通过使用经过熵正则化的软策略来减少学习零和随机博弈的计算成本，并验证了该算法收敛于纳什平衡并具有更快的加速效果。

线性可解的 MDP 与线性二次调节器的 Tsallis 熵正则化

BriefGPT - AI 论文速递 ·

该研究提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法，用于解决无奖励的强化学习问题。该方法可以在提供任意外界奖励的情况下，实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度。这是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。

离线约束强化学习的低秩 MDP 原始 - 对偶算法

BriefGPT - AI 论文速递 ·

本文介绍了一种新型的策略梯度原始-对偶算法，具有均匀概率近似正确性保证。该算法在收敛至最优策略、次线性遗憾和多项式样本复杂度方面具有理论保证，并在一个简单的CMDP示例中进行了实证展示。结果表明，该算法能够收敛至最优策略，而现有算法则表现出振荡性能和约束违规。

一种具有均匀 PAC 保证的限制 MDP 的策略梯度原始对偶算法

BriefGPT - AI 论文速递 ·