本研究提出了体育视频评论生成的新任务及基准SCBench,评估视频大型语言模型的细粒度时序视觉能力。结果显示,InternVL-Chat-2在该基准上表现最佳,为复杂视觉理解任务提供了新视角。
完成下面两步后,将自动完成登录并继续当前操作。