本研究通过观察视觉起点和目标来规划教学视频过程,利用标题作为监督,减少标记成本。使用BLIP生成标题并进行对比学习,在两个数据集上验证了模型的有效性,表现良好。
完成下面两步后,将自动完成登录并继续当前操作。