FreeVA: 离线 MLLM 作为无需训练的视频助手
原文中文,约400字,阅读约需1分钟。发表于: 。通过对多模态大型语言模型(MLLMs)的最新进展进行实证研究,本文介绍了一个名为 FreeVA 的研究,旨在以无需训练的方式将现有基于图像的 MLLM 扩展到视频领域。研究发现,仅利用离线图像 MLLM 而无需额外训练的 FreeVA,在零样本视频问答(例如 MSVD-QA、ActivityNet-QA 和...
本文介绍了一个名为FreeVA的研究,通过对多模态大型语言模型的最新进展进行实证研究,将现有基于图像的模型扩展到视频领域。研究发现,FreeVA在零样本视频问答方面表现出色,甚至超过了最先进的方法。同时指出,利用VideoInstruct-100K进行视频指令调整并不会导致更好的性能。强调评估指标受GPT API版本变化的影响。