可证明的视觉-语言预训练中的顺序性和连续性,用于可泛化的具身智能体
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新颖的动作时间连贯性学习方法(AcTOL),旨在解决视觉-语言预训练中因关注未来帧而导致的关联错误问题,从而提升下游任务的性能和对不同语言指令的鲁棒性。
🎯
关键要点
- 本研究提出了一种新颖的动作时间连贯性学习方法(AcTOL)。
- AcTOL旨在解决视觉-语言预训练中因关注未来帧而导致的关联错误问题。
- 该方法通过对视频帧的自然顺序进行语义对比学习,提升了下游操作任务的性能。
- AcTOL增强了对不同语言风格指令的鲁棒性。
- 该研究推动了可泛化的具身智能体的发展。
➡️