小红花·文摘

本文介绍了一种基于汤普森抽样的强化学习策略，利用Langevin Monte Carlo从后验分布中抽取Q函数，能够有效学习并在深度强化学习中表现优异。研究提出了改进算法，解决了探索与利用的平衡问题，并在多臂赌博问题中展示了良好的性能。

BriefGPT - AI 论文速递 ·

本文提出了一种改进的汤普森抽样策略，旨在解决探索不足的问题，并提供了理论证明。研究涵盖了基于在线最小二乘回归的频率分析、贝叶斯思想的算法泛化以及新型深度神经网络算法，展示了在多臂老虎机和上下文赌博问题中的有效性和优越性。

BriefGPT - AI 论文速递 ·