小红花·文摘

本文介绍了一种新的基于选项框架的策略梯度理论，提出了选项-评论架构，能够同时学习内部策略和终止条件。研究了层次策略学习，提出了预算选项神经网络（BONN）模型，展示了其在多种强化学习任务中的有效性。通过引入注意力机制和子任务方法，提升了选项学习的效率和规划能力。