小红花·文摘

为了实现人工智能目标，强化学习需要使用抽象状态和时间模型进行规划。本文提出了一种新方法，通过原始奖励和基于状态特征的奖励生成子任务，解决了以往研究的不足。结果表明，该方法在规划中更有效，并适用于在线和非策略学习。最后，展示了如何用通用价值函数统一算法，整合学习价值、策略、选项和模型。