为了实现人工智能目标,强化学习需要使用抽象状态和时间模型进行规划。本文提出了一种新方法,通过原始奖励和基于状态特征的奖励生成子任务,解决了以往研究的不足。结果表明,该方法在规划中更有效,并适用于在线和非策略学习。最后,展示了如何用通用价值函数统一算法,整合学习价值、策略、选项和模型。
本研究提出了一种对比抽象学习方法,通过聚类减少状态数量,解决强化学习在长轨迹中处理大量状态的问题。该方法结合对比学习和现代霍普菲尔德网络,有效识别抽象状态,不依赖奖励,为多种任务提供高效解决方案。
本文介绍了一种自主学习方法,通过无标注的机器人轨迹自动学习状态和动作的逻辑关系,形成类似PDDL的模型。实验证明,少量轨迹即可学习强大表示,扩展规划算法的任务范围。
完成下面两步后,将自动完成登录并继续当前操作。