小红花·文摘

本文提出了一种新理论框架，将有限代理人的状态表示学习与目标导向结合。通过定义目标状态表示的可控性，研究粒度与策略复杂性之间的权衡。算法在导航任务中有效，强调忽略某些信息以学习简单灵活的状态表示，为自然和人工学习提供统一视角。