为了实现人工智能目标,强化学习需要使用抽象状态和时间模型进行规划。本文提出了一种新方法,通过原始奖励和基于状态特征的奖励生成子任务,解决了以往研究的不足。结果表明,该方法在规划中更有效,并适用于在线和非策略学习。最后,展示了如何用通用价值函数统一算法,整合学习价值、策略、选项和模型。
完成下面两步后,将自动完成登录并继续当前操作。