Adaptive Exploration for Multi-Reward Multi-Policy Evaluation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究首次从$( ext{ε}, ext{δ})$-PAC视角解决在线多奖励多策略折扣设置中的政策评估问题,采用改进的MR-NaS探索方案,实现了样本复杂度的联合最小化,实验结果验证了其有效性。

🎯

关键要点

  • 本研究首次从(ε,δ)-PAC视角解决在线多奖励多策略折扣设置中的政策评估问题。
  • 提出了同时评估多个奖励函数的$( ext{ε}, ext{δ})$-PAC视角。
  • 采用改进的MR-NaS探索方案,实现了样本复杂度的联合最小化。
  • 实验结果验证了该自适应探索方案的有效性。
➡️

继续阅读