本文介绍了一种基于汤普森抽样的强化学习策略,利用Langevin Monte Carlo从后验分布中抽取Q函数,能够有效学习并在深度强化学习中表现优异。研究提出了改进算法,解决了探索与利用的平衡问题,并在多臂赌博问题中展示了良好的性能。
本文提出了一种改进的汤普森抽样策略,旨在解决探索不足的问题,并提供了理论证明。研究涵盖了基于在线最小二乘回归的频率分析、贝叶斯思想的算法泛化以及新型深度神经网络算法,展示了在多臂老虎机和上下文赌博问题中的有效性和优越性。
完成下面两步后,将自动完成登录并继续当前操作。