小红花·文摘

本文介绍了一个名为FreeVA的研究，通过对多模态大型语言模型的最新进展进行实证研究，将现有基于图像的模型扩展到视频领域。研究发现，FreeVA在零样本视频问答方面表现出色，甚至超过了最先进的方法。同时指出，利用VideoInstruct-100K进行视频指令调整并不会导致更好的性能。强调评估指标受GPT API版本变化的影响。