Video-LLaMA:用于视频理解的指令调优音频-视觉语言模型
Video-LLaMAの論文 Architecture Vision-LLaMa is composed of two branches, the Vision-Language branch and the Audio-Language branch. Pre-training of the Vision-Language branch is conducted by...
Video-LLaMA架构包含视觉-语言和音频-语言两个分支。视觉-语言分支使用Webvid-2M数据集进行预训练,模型生成内容能力强,但指令遵循能力较弱,因此需要微调。第一阶段冻结视觉编码器,使用可训练的视频Q-Former处理帧输入。
