Video-LLaMA：用于视频理解的指令调优音频-视觉语言模型

Video-LLaMAの論文 Architecture Vision-LLaMa is composed of two branches, the Vision-Language branch and the Audio-Language branch. Pre-training of the Vision-Language branch is conducted by...

Video-LLaMA架构包含视觉-语言和音频-语言两个分支。视觉-语言分支使用Webvid-2M数据集进行预训练，模型生成内容能力强，但指令遵循能力较弱，因此需要微调。第一阶段冻结视觉编码器，使用可训练的视频Q-Former处理帧输入。

Video-LLaMA llama 微调视觉-语言语言模型音频-语言预训练