本研究提出了一种新的离线强化学习框架,解决信息路径规划中的风险和成本问题。通过批约束强化学习从预先收集的数据中学习,减少外推误差。实验表明,该方法在性能和速度上优于现有方法,展示了其在机器人任务中的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。