小红花·文摘

研究了战略点击赌博问题，设计了激励感知的学习算法UCB-S，能够在不确定性下激励期望的臂行为，并学习未知参数以最小化遗憾度。通过模拟战略臂行为证实了激励设计的有效性和鲁棒性。