💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
Video-LLaMA架构包含视觉-语言和音频-语言两个分支。视觉-语言分支使用Webvid-2M数据集进行预训练,模型生成内容能力强,但指令遵循能力较弱,因此需要微调。第一阶段冻结视觉编码器,使用可训练的视频Q-Former处理帧输入。
🎯
关键要点
- Video-LLaMA架构包含视觉-语言和音频-语言两个分支。
- 视觉-语言分支使用Webvid-2M数据集进行预训练。
- 模型在生成内容方面能力强,但指令遵循能力较弱。
- 因此需要进行微调以提高指令遵循能力。
- 第一阶段冻结视觉编码器,使用可训练的视频Q-Former处理帧输入。
➡️