多保真度策略梯度算法

📝

内容提要

本研究针对强化学习(RL)算法在数据需求高的应用场景中的局限性,提出了一种多保真度策略梯度(MFPG)框架,该框架通过结合少量目标环境数据与大量低保真度模拟数据,提供无偏且方差减小的估计器。实验结果表明,MFPG在目标环境样本有限时,奖励提高至最高3.9倍,并且在数据收集成本与策略性能之间提供了一种有效平衡的方法。

🏷️

标签

➡️

继续阅读