小红花·文摘

本文研究了自私学习代理与学习主体之间的博弈，探讨了在多臂赌博机框架下的激励策略。研究表明，主体需在信息利用与激励之间取得平衡，以最大化效用。提出的算法在社会福利和决策优化方面具有应用前景，尤其适用于互联网经济和医疗决策领域。