GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
💡
原文中文,约4700字,阅读约需12分钟。
📝
内容提要
浙江大学与上海AI实验室推出Creation-MMBench基准,评估多模态大模型的创造力。该基准包含765个实例和51个任务,强调视觉理解与创意生成的结合,填补了现有评测的不足。
🎯
关键要点
- 浙江大学与上海AI实验室推出Creation-MMBench基准,评估多模态大模型的创造力。
- Creation-MMBench包含765个实例和51个任务,强调视觉理解与创意生成的结合。
- 现有评测基准难以衡量多模态大模型的创造性,Creation-MMBench填补了这一不足。
- Creation-MMBench设定复杂情境,考察模型的视觉内容理解、情境适应和创意性文本生成能力。
- 基准分为四大任务类型:文学创作、日常功能性写作、专业功能性写作和多模态理解与创作。
- 评估策略采用双重评估体系,使用视觉事实性评分和创意奖励分来量化创意质量。
- 实验结果显示,Gemini-2.0-Pro在多模态创意写作能力上优于GPT-4o。
- 开源模型在创作能力上与闭源模型相当,但整体表现仍有差距。
- 视觉微调对模型的创作能力有潜在负面影响,可能限制了模型的理解能力。
- Creation-MMBench现已集成至VLMEvalKit,支持一键评测模型在创意任务中的表现。
❓
延伸问答
Creation-MMBench基准的主要目的是什么?
Creation-MMBench基准旨在评估多模态大模型的创造力,填补现有评测的不足。
Creation-MMBench包含多少个任务和实例?
Creation-MMBench包含51个任务和765个实例。
Creation-MMBench如何评估模型的创意质量?
评估采用双重评估体系,包括视觉事实性评分和创意奖励分。
哪些模型在多模态创意写作能力上表现优于GPT-4o?
Gemini-2.0-Pro在多模态创意写作能力上优于GPT-4o。
视觉微调对模型创作能力有什么影响?
视觉微调可能对模型的理解能力产生潜在负面影响,限制其创作能力。
Creation-MMBench的任务类型有哪些?
Creation-MMBench的任务类型包括文学创作、日常功能性写作、专业功能性写作和多模态理解与创作。
➡️