Adaptive Exploration for Multi-Reward Multi-Policy Evaluation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究首次从$( ext{ε}, ext{δ})$-PAC视角解决在线多奖励多策略折扣设置中的政策评估问题,采用改进的MR-NaS探索方案,实现了样本复杂度的联合最小化,实验结果验证了其有效性。
🎯
关键要点
- 本研究首次从(ε,δ)-PAC视角解决在线多奖励多策略折扣设置中的政策评估问题。
- 提出了同时评估多个奖励函数的$( ext{ε}, ext{δ})$-PAC视角。
- 采用改进的MR-NaS探索方案,实现了样本复杂度的联合最小化。
- 实验结果验证了该自适应探索方案的有效性。
➡️