BriefGPT - AI 论文速递 ·

Unichain 和非周期性对于渐近最优性的平均奖励厌恶赌博机是充分条件

💡 原文中文，约300字，阅读约需1分钟。

📝

内容提要

研究了离散时间无限远平均回报的不安静赌博机问题，提出了一种新的策略类别，证明了在 N 臂问题中，如果单臂松弛问题是单连通和非周期的，我们的策略是渐近最优的，具有 O (1/√N) 的最优性差距。与目前大多数关注索引或优先级策略，依靠统一全球吸引子属性（UGAP）以保证收敛到最优解的已有工作，或者最近开发的基于模拟的策略不同，我们的方法不需要同步假设（SA）。

🎯

关键要点

研究了离散时间无限远平均回报的不安静赌博机问题。
提出了一种新的策略类别，旨在将逐渐增大的一部分臂带向最优分布。
在 N 臂问题中，如果单臂松弛问题是单连通和非周期的，则该策略是渐近最优的。
该策略具有 O (1/√N) 的最优性差距。
与现有的依赖统一全球吸引子属性（UGAP）以保证收敛的策略不同，我们的方法不需要同步假设（SA）。

内容提要

关键要点

继续阅读