CinePile:一种长视频问答数据集和基准
原文中文,约300字,阅读约需1分钟。发表于: 。创新的方法使用人工生成的原始数据,结合 LLMS,构建了一个包含 305,000 个多项选择题的全面数据集 CinePile,涵盖视觉和多模态方面,包括对时间的理解、人物 - 对象交互的理解以及场景内事件或动作的推理。同时,还对最近的基于视频的 LLMs 进行了评估,发现即使是最先进的视频中心的 LLMs 在这些任务中也明显落后于人类的表现,突显了视频理解的复杂性和挑战。
创新方法使用人工生成的原始数据构建了全面的数据集CinePile,包含305,000个多项选择题,涵盖视觉和多模态方面。评估发现最先进的视频中心的LLMs在任务中明显落后于人类表现,突显了视频理解的复杂性和挑战。