规模化的视频章节 (VidChapters-7M)
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了InternVid数据集,它是一个以视频为中心的多模态数据集,用于研究多模态理解和生成。作者使用大型语言模型展示了该数据集在学习大规模视频-语言编码中的效力。
🎯
关键要点
- InternVid是一个大规模的以视频为中心的多模态数据集。
- 该数据集旨在学习强大且可转移的视频-文本编码。
- InternVid用于多模态理解和生成的研究。
- 作者自动构建了高质量的视频-文本数据集。
- 使用大型语言模型展示了该数据集在学习大规模视频-语言编码中的效力。
➡️