基于 Whittle 指数的有限时间分析:带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该文介绍了一种解决无休止多臂赌博问题的观测模型,应用可实现区域方法和部分守恒定律分析其可索引性和优先指数。提出了一个近似过程来将问题转化为有限状态问题,并进行了数值实验。
🎯
关键要点
- 建立了一种对无休止多臂赌博问题的观测模型。
- 将问题建模为拥有可数信念状态空间的无休止赌博问题。
- 应用可实现区域方法和部分守恒定律分析可索引性和优先指数。
- 提出了一个近似过程,将问题转化为有限状态问题。
- 使用Niño-Mora和Bertsimas的AG算法进行分析。
- 数值实验表明算法表现出色。
➡️