本文介绍了InternVid数据集,它是一个以视频为中心的多模态数据集,用于研究多模态理解和生成。作者使用大型语言模型展示了该数据集在学习大规模视频-语言编码中的效力。
完成下面两步后,将自动完成登录并继续当前操作。