小红花·文摘

本文介绍了一种新的无模型策略搜索算法POIS，适用于强化学习中的连续控制任务。该算法通过离线优化轨迹批次来定义替代目标函数，并解决了目标函数的方差问题。同时，探讨了改良的PPO算法和重要性采样方法在强化学习中的应用，旨在提高样本效率和预测性能。