小红花·文摘

该研究发现预训练的强化学习策略网络具有追求多个上下文相关目标的能力，并确定了对应电路。网络具有冗余、分布式和可重新设定目标表示的特性，阐明了训练策略网络中目标方向的本质。