基于合成数据的视频指令调优
原文中文,约200字,阅读约需1分钟。发表于: 。本研究解决了从网络获取高质量原始视频数据的难题,通过创建高质量合成数据集LLaVA-Video-178K,专注于视频指令跟随的训练。这一数据集促进了新的视频大型多模态模型LLaVA-Video的开发,实验结果表明其在多项视频基准测试中表现优异。
该研究介绍了MM-Instruct,这是一个大规模、多样化的视觉指令数据集,旨在提升大型多模态模型的指令跟随能力。通过现有语言模型从图像字幕数据生成新的视觉指令数据,并建立基准来评估这些模型的能力。