本文提出了一种关于有限代理人中状态表示学习的新理论框架,通过目标导向或目标性状态的概念将描述性方面与规范性方面相结合。演示了学习可控状态表示算法在导航任务中的有效性,为自然学习和人工学习提供了统一的理论观点。
完成下面两步后,将自动完成登录并继续当前操作。