基于批次集成的随机赌博机中的方差相关悔恨
📝
内容提要
本研究针对在线强化学习中探索与开发的权衡问题,提出了一种简单且新颖的批次集成方案,该方案在随机多臂赌博机中能够证明实现接近最优的悔恨。该算法只需一个参数——批次数,且其值不依赖于损失的分布特性如规模和方差。实验结果进一步验证了该算法的有效性。
➡️
本研究针对在线强化学习中探索与开发的权衡问题,提出了一种简单且新颖的批次集成方案,该方案在随机多臂赌博机中能够证明实现接近最优的悔恨。该算法只需一个参数——批次数,且其值不依赖于损失的分布特性如规模和方差。实验结果进一步验证了该算法的有效性。