EgoInstructor模型通过检索第三人称指导视频来增强第一人称视频的字幕生成,训练跨视角检索模块并使用EgoExoNCE损失函数对齐视频特征,实验证明在七个基准上表现出优越性能,显著改进第一人称视频字幕生成。
完成下面两步后,将自动完成登录并继续当前操作。