非平稳随机赌博机的划分树加权
📝
内容提要
本研究针对交互数据(即行动与观察交织的数据流)中的通用源编码进行了扩展,解决了如何在行动生成中避免自我错觉问题。提出了一种高效的新算法,推广了划分树加权的通用编码技术,并成功应用于非平稳随机伯努利赌博机问题,显示了其在控制设置下的优越性能。
➡️
本研究针对交互数据(即行动与观察交织的数据流)中的通用源编码进行了扩展,解决了如何在行动生成中避免自我错觉问题。提出了一种高效的新算法,推广了划分树加权的通用编码技术,并成功应用于非平稳随机伯努利赌博机问题,显示了其在控制设置下的优越性能。