小红花·文摘

本研究提出了一种新颖的动作时间连贯性学习方法（AcTOL），旨在解决视觉-语言预训练中因过度关注未来帧导致的关联错误。该方法通过语义对比学习视频帧的自然顺序，显著提升了下游操作任务的性能，并增强了对不同语言风格指令的鲁棒性，推动了具身智能体的发展。