小红花·文摘

本研究首次从$( ext{ε}, ext{δ})$-PAC视角解决在线多奖励多策略折扣设置中的政策评估问题，采用改进的MR-NaS探索方案，实现了样本复杂度的联合最小化，实验结果验证了其有效性。