小红花·文摘

本研究提出了一种新的离线强化学习框架，解决信息路径规划中的风险和成本问题。通过批约束强化学习从预先收集的数据中学习，减少外推误差。实验表明，该方法在性能和速度上优于现有方法，展示了其在机器人任务中的应用潜力。