小红花·文摘

该文介绍了应用Lagrange乘数法对带有不等式约束的C-MDP中的actor critic和natural actor critic算法进行非渐近分析的结果。证明了这些算法在非独立同分布环境中能够找到性能函数的一阶稳定点，其采样复杂度分别为ε^{-2.5}。实验结果表明这两个算法在大网格尺寸上表现良好，受限的自然actor critic稍微优于受限的actor critic，而对于小网格尺寸，后者稍微优于前者。

约束的演员 - 评论家算法和约束的自然演员 - 评论家算法的有限时间分析

BriefGPT - AI 论文速递 ·

本文研究了固定置信度下的最佳武器识别问题，提出了一种简单的算法，采样复杂度与已知的特定实例下界匹配，在几乎必然的情况下一致性和期望上。该算法使用的停止规则不依赖于武器数量。实验结果表明，该算法明显优于现有算法。同时，本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

具有固定置信度的不安定赌博机中的最佳臂标识

BriefGPT - AI 论文速递 ·

本文提出了一种简单的算法，用于固定置信度下的最佳武器识别问题，采样复杂度与已知的实例下界匹配，且停止规则不依赖于武器数量。实验结果表明，该算法优于现有算法。同时，本文还首次分析了具有连续武器集的线性武装的最佳武器识别问题。

一种用于良好手臂识别的实时算法

BriefGPT - AI 论文速递 ·

本文研究了固定置信度下的最佳武器识别问题，提出了一种简单的算法，采样复杂度与已知实例下界匹配。算法依赖于跟踪最佳比例的武器采样规则，且停止规则不依赖于武器数量。实验结果表明，算法优于现有算法。同时，对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

快速和遗憾最优的最佳臂识别：基本限制和低复杂度算法

BriefGPT - AI 论文速递 ·

关于固定预算下二臂赌博机最优臂识别的统一最优算法

BriefGPT - AI 论文速递 ·