基于 Whittle 指数的有限时间分析:带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该文介绍了一种解决无休止多臂赌博问题的观测模型,应用可实现区域方法和部分守恒定律分析其可索引性和优先指数。提出了一个近似过程来将问题转化为有限状态问题,并进行了数值实验。

🎯

关键要点

  • 建立了一种对无休止多臂赌博问题的观测模型。
  • 将问题建模为拥有可数信念状态空间的无休止赌博问题。
  • 应用可实现区域方法和部分守恒定律分析可索引性和优先指数。
  • 提出了一个近似过程,将问题转化为有限状态问题。
  • 使用Niño-Mora和Bertsimas的AG算法进行分析。
  • 数值实验表明算法表现出色。
➡️

继续阅读