本文介绍了一种新的任务:口语视频 grounding(SVG),旨在将口语描述中的期望视频片段定位出来。为了更好地模拟实际应用,还将环境噪声随机添加到语音音频中,用于纠正识别性音素并从噪声音频中提取视频相关信息,研发一种新的视频引导课程学习(VGCL)方法。经过实验证明,VGCL 可以促进预训练过程,并显着提高口语视频焦点任务的表现。
完成下面两步后,将自动完成登录并继续当前操作。