本文介绍了一种基于汤普森抽样的强化学习策略,利用Langevin Monte Carlo从后验分布中抽取Q函数,能够有效学习并在深度强化学习中表现优异。研究提出了改进算法,解决了探索与利用的平衡问题,并在多臂赌博问题中展示了良好的性能。
完成下面两步后,将自动完成登录并继续当前操作。