小红花·文摘

本研究提出了体育视频评论生成的新任务及基准SCBench，评估视频大型语言模型的细粒度时序视觉能力。结果显示，InternVL-Chat-2在该基准上表现最佳，为复杂视觉理解任务提供了新视角。