本研究提出了一种新颖的动作时间连贯性学习方法(AcTOL),旨在解决视觉-语言预训练中因过度关注未来帧导致的关联错误。该方法通过语义对比学习视频帧的自然顺序,显著提升了下游操作任务的性能,并增强了对不同语言风格指令的鲁棒性,推动了具身智能体的发展。
本文介绍了一种语义对比学习的方法(SCL),通过引入距离的聚类结构到无标注数据的特征空间中,推理出语义上的实体类别。实验证明,SCL 在物体识别基准测试中优于其他方法。
完成下面两步后,将自动完成登录并继续当前操作。