小红花·文摘

达摩院推出的Video LLaMA 3是一个7B参数的多模态视频-语言模型，具备卓越的视频和图像理解能力，超越多个基线模型。该模型通过高质量的图像文本数据进行训练，支持用户上传图片或视频进行互动，展示了强大的性能。