CinePile:一种长视频问答数据集和基准
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
创新方法使用人工生成的原始数据构建了全面的数据集CinePile,包含305,000个多项选择题,涵盖视觉和多模态方面。评估发现最先进的视频中心的LLMs在任务中明显落后于人类表现,突显了视频理解的复杂性和挑战。
🎯
关键要点
- 使用人工生成的原始数据构建了全面的数据集CinePile。
- CinePile包含305,000个多项选择题,涵盖视觉和多模态方面。
- 数据集包括对时间的理解、人物-对象交互的理解以及场景内事件或动作的推理。
- 评估发现最先进的视频中心的LLMs在任务中明显落后于人类表现。
- 研究突显了视频理解的复杂性和挑战。
➡️