量子位 ·

CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

CVPR2025提出的Video-Bench框架通过模拟人类认知，评估AI生成视频的质量与美学，解决了视频与文本对齐的问题。该框架采用链式查询和少样本评分技术，显著提高了评估准确性，超越了传统方法。

🎯

关键要点

CVPR2025提出的Video-Bench框架通过模拟人类认知，评估AI生成视频的质量与美学。
Video-Bench解决了视频与文本对齐的问题，采用链式查询和少样本评分技术，显著提高评估准确性。
Video-Bench团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。
Video-Bench的评估框架包括视频-条件对齐和视频质量两个维度，全面评估生成内容与文本指令的符合度。
链式查询技术通过多轮问答评估视频与文本的一致性，少样本评分技术通过对比多个视频实现美学评价的量化。
Video-Bench在视频-条件对齐维度的Spearman相关系数为0.733，显著优于传统方法CompBench。
评估者间一致性达0.52，验证了评估结果的可靠性。
使用Video-Bench对7个主流视频生成模型进行测评，发现商业模型整体优于开源模型。
不同模型在视频生成质量上存在显著差异，特别是在成像质量和视频-文本一致性方面。
作者团队包括多位研究生和访问学者，研究方向集中在多模态语言模型。

❓

延伸问答

Video-Bench框架的主要功能是什么？

Video-Bench框架通过模拟人类认知，评估AI生成视频的质量与美学，解决视频与文本对齐的问题。

Video-Bench如何提高视频评估的准确性？

Video-Bench采用链式查询和少样本评分技术，显著提高了评估准确性，超越了传统方法。

Video-Bench的评估维度有哪些？

Video-Bench的评估框架包括视频-条件对齐和视频质量两个维度，全面评估生成内容与文本指令的符合度。

Video-Bench与传统评估方法相比有什么优势？

Video-Bench在视频-条件对齐维度的Spearman相关系数为0.733，显著优于传统方法CompBench，显示出更高的评估准确性。

Video-Bench的研究团队来自哪些机构？

Video-Bench团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。

使用Video-Bench评估的结果如何？

使用Video-Bench对7个主流视频生成模型进行测评，发现商业模型整体优于开源模型，且不同模型在视频生成质量上存在显著差异。

🏷️

继续阅读

将您的架构待办事项与技术路线图优先级（TRP）对齐
成功的数字化转型需要业务和技术利益相关者在编写代码前达成共识。70%的转型失败源于利益相关者不一致。使用技术路线图优先级（TRP）框架，组织可以快速确定优...
YouTube获得行业首个短视频MRC认证
YouTube连续第六年获得媒体评级委员会（MRC）的品牌安全认证，并首次将认证扩展至YouTube Shorts，成为首个获得短视频品牌安全认证的平台。...
从任意视角探索场景：3D体积视频技术突破意味着3D流媒体可能很快成为现实
布朗大学研究人员推出了名为PackUV的3D体积视频处理方法，旨在实现可存储、流式传输的逼真3D视频。该技术通过多台摄像机拍摄场景，并利用算法重建三维空间...
App+1 | 零基础 3 分钟在线搞定产品演示视频：Mockup Studio
Mockup Studio 是一个在线工具，用户可以快速制作产品展示视频，只需拖入录屏并调整样式即可导出成品。该工具简化了视频制作流程，适合开发者和产品经...
Lumine Group 达成协议，将从 Synamedia 收购其视频网络业务
Lumine Group宣布收购Synamedia的视频网络业务，这是其第16笔企业剥离交易，旨在增强其在媒体供应链中的布局，专注于视频处理和直播流媒体。...
AI 工程中最该投资的一件事：评估管道
AI 工程和传统软件工程最大的区别在于输出质量不是二元的。一个 CRUD 接口要么能用要么不能用，但 LLM 的输出处于一个质量梯度上，你没法用单元测试来...