E.T.基准:迈向开放式事件级视频语言理解
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了现有视频理解基准缺乏细粒度事件级评估和任务多样性的问题。我们提出了E.T.基准,这是一个大规模的高质量开放式事件级视频理解基准,包含12项任务下的7.3K样本和7K视频,提供全面评估。评估结果表明,现有的先进模型在解决细粒度任务时表现不佳,同时提出的E.T. Chat模型和指令调优数据集在多个场景中显示出优越的性能。
本研究提出了E.T.基准,解决视频理解中缺乏细粒度事件评估和任务多样性的问题。E.T.基准包含12项任务的7.3K样本和7K视频,提供全面评估。结果显示,现有模型在细粒度任务上表现不佳,而E.T. Chat模型在多个场景中表现优越。