小红花·文摘

本研究综述了人工智能中强化学习的赌徒问题，重点分析随机多臂和连续臂赌博机模型，比较频率主义与贝叶斯算法，探讨探索与利用的权衡，以及$K$臂上下文赌博机与SCAB的关系，强调最新进展与挑战。