本文介绍了一种新的基于选项框架的策略梯度理论,提出了选项-评论架构,能够同时学习内部策略和终止条件。研究了层次策略学习,提出了预算选项神经网络(BONN)模型,展示了其在多种强化学习任务中的有效性。通过引入注意力机制和子任务方法,提升了选项学习的效率和规划能力。
完成下面两步后,将自动完成登录并继续当前操作。