小红花·文摘

本文研究了线性臂选模型选择，提出了一种Pareto最优算法，以平衡探索与开发。针对因果背景下的赌博问题，优化了上下文马尔可夫决策过程，并提出新算法以提高干预效果，最终在随机环境中验证了其有效性。