本研究提出了一种新颖的动作时间连贯性学习方法(AcTOL),旨在解决视觉-语言预训练中因关注未来帧而导致的关联错误问题,从而提升下游任务的性能和对不同语言指令的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。