小红花·文摘

该研究引入了多模式视频理解基准（MVBench）和长视频理解基准（LVBench），评估多模态大型语言模型（MLLMs）的性能。结果显示，VideoChat2在MVBench上表现优于其他模型15%。研究指出当前模型在长视频理解方面的不足，并提出新的评估方法，以推动更先进模型的发展。