该研究引入了多模式视频理解基准(MVBench)和长视频理解基准(LVBench),评估多模态大型语言模型(MLLMs)的性能。结果显示,VideoChat2在MVBench上表现优于其他模型15%。研究指出当前模型在长视频理解方面的不足,并提出新的评估方法,以推动更先进模型的发展。
完成下面两步后,将自动完成登录并继续当前操作。