HLV-1K:一个大型时长一小时视频的基准,针对特定时间的长视频理解

📝

内容提要

本研究解决了长时视频理解中数据集缺乏的问题,旨在通过构建HLV-1K基准来评估长视频理解模型。该基准包含1009段时长一小时的视频以及丰富的问答对,支持多种推理任务,并展示了其在测试深度长视频理解能力方面的价值。

➡️

继续阅读