提议、评估、搜索:利用大语言模型实现教学视频中的目标导向规划
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究通过观察视觉起点和目标来规划教学视频过程,利用标题作为监督,减少标记成本。使用BLIP生成标题并进行对比学习,在两个数据集上验证了模型的有效性,表现良好。
🎯
关键要点
- 本研究探讨了教学视频中的过程规划挑战,旨在创建目标导向的计划。
- 通过观察视频中的视觉起点和目标,提出了一种更弱的设置方式,没有任务名称作为监督。
- 假设以前的中间监督可以作为上下文信息,使用标题作为更便宜的监督形式。
- 该方法降低了标记成本,因为标题可通过大型预训练视觉-语言模型轻松获得。
- 应用BLIP生成标题,作为对比学习损失训练上下文特征。
- 在两个不同规模的数据集上进行的实验证明,模型在多个指标上达到可比较的性能,验证了假设。
➡️