量子位 ·

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

浙江大学与上海AI实验室推出Creation-MMBench基准，评估多模态大模型的创造力。该基准包含765个实例和51个任务，强调视觉理解与创意生成的结合，填补了现有评测的不足。

🎯

关键要点

浙江大学与上海AI实验室推出Creation-MMBench基准，评估多模态大模型的创造力。
Creation-MMBench包含765个实例和51个任务，强调视觉理解与创意生成的结合。
现有评测基准难以衡量多模态大模型的创造性，Creation-MMBench填补了这一不足。
Creation-MMBench设定复杂情境，考察模型的视觉内容理解、情境适应和创意性文本生成能力。
基准分为四大任务类型：文学创作、日常功能性写作、专业功能性写作和多模态理解与创作。
评估策略采用双重评估体系，使用视觉事实性评分和创意奖励分来量化创意质量。
实验结果显示，Gemini-2.0-Pro在多模态创意写作能力上优于GPT-4o。
开源模型在创作能力上与闭源模型相当，但整体表现仍有差距。
视觉微调对模型的创作能力有潜在负面影响，可能限制了模型的理解能力。
Creation-MMBench现已集成至VLMEvalKit，支持一键评测模型在创意任务中的表现。

❓

延伸问答

Creation-MMBench基准的主要目的是什么？

Creation-MMBench基准旨在评估多模态大模型的创造力，填补现有评测的不足。

Creation-MMBench包含多少个任务和实例？

Creation-MMBench包含51个任务和765个实例。

Creation-MMBench如何评估模型的创意质量？

评估采用双重评估体系，包括视觉事实性评分和创意奖励分。

哪些模型在多模态创意写作能力上表现优于GPT-4o？

Gemini-2.0-Pro在多模态创意写作能力上优于GPT-4o。

视觉微调对模型创作能力有什么影响？

视觉微调可能对模型的理解能力产生潜在负面影响，限制其创作能力。

Creation-MMBench的任务类型有哪些？

Creation-MMBench的任务类型包括文学创作、日常功能性写作、专业功能性写作和多模态理解与创作。

🏷️

继续阅读

Clerk Chat 更名为 Clerk AI，加倍投入面向企业大规模语音和消息传递的对话式 AI 代理
Clerk AI于2026年4月20日更名，专注于为效果营销构建对话式AI代理。该平台支持智能语音和消息代理的大规模部署，能够进行个性化沟通并与CRM系统...
Talkdesk 利用 AI 驱动的客户体验自动化技术，瞄准本地部署的联络中心
Talkdesk 推出客户体验自动化 (CXA) 产品，旨在将 AI 功能整合到现有联络中心，支持多语言和全渠道客服。CXA 增强人工客服能力，降低运营成...
Moments Lab 与 AWS 合作，释放视频档案的价值
AI驱动的视频发现公司Moments Lab在NAB展会上宣布与亚马逊网络服务(AWS)合作，旨在帮助媒体和娱乐公司优化视频档案。通过AWS资源，Mome...
我和 AI 搭子工作了一周，再也回不去了
搭子DuMate是百度智能云推出的桌面AI助手，能够通过自然语言指令自动分类文件、整合数据并生成报告和PPT。其文件处理在本地进行，确保高安全性，用户可实...
UCaaS 领域的 AI 创新需要平衡合规性
随着人工智能的发展，企业在统一通信即服务中的合规性与创新性面临挑战。合规成本高昂，AI可以帮助降低治理成本，但需谨慎对待AI输出。合规要求应嵌入技术平台，...
Mozilla 发布开源 AI 客户端 Thunderbolt，聊天、搜索、调研、自动化，自托管/隐私优先
Mozilla 发布了开源 AI 客户端 Thunderbolt，支持本地部署，强调用户隐私。该客户端提供聊天、搜索、调研和任务自动化功能，能够接入企业内...