小红花·文摘

本文介绍了一种基于汤普森抽样的强化学习策略，利用Langevin Monte Carlo从后验分布中抽取Q函数，能够有效学习并在深度强化学习中表现优异。研究提出了改进算法，解决了探索与利用的平衡问题，并在多臂赌博问题中展示了良好的性能。