本研究提出了TWISTER方法,通过引入以动作为条件的对比预测编码,提升了变换器世界模型的学习能力。在Atari 100k基准测试中,TWISTER实现了162%的平均人类得分,创下新纪录。
完成下面两步后,将自动完成登录并继续当前操作。