本文介绍了一种新的无模型策略搜索算法POIS,适用于强化学习中的连续控制任务。该算法通过离线优化轨迹批次来定义替代目标函数,并解决了目标函数的方差问题。同时,探讨了改良的PPO算法和重要性采样方法在强化学习中的应用,旨在提高样本效率和预测性能。
完成下面两步后,将自动完成登录并继续当前操作。