小红花·文摘

本文介绍了一种新的任务：口语视频 grounding（SVG），旨在将口语描述中的期望视频片段定位出来。为了更好地模拟实际应用，还将环境噪声随机添加到语音音频中，用于纠正识别性音素并从噪声音频中提取视频相关信息，研发一种新的视频引导课程学习（VGCL）方法。经过实验证明，VGCL 可以促进预训练过程，并显着提高口语视频焦点任务的表现。