小红花·文摘

本文介绍了InternVid数据集，它是一个以视频为中心的多模态数据集，用于研究多模态理解和生成。作者使用大型语言模型展示了该数据集在学习大规模视频-语言编码中的效力。