量子位 ·

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

智源研究院发布了100余个大模型的综合评测结果，涵盖文本、语音、图像和视频等多模态。评测显示，国内模型在中文能力和复杂场景任务上与国际水平仍有差距。新评测增加了金融量化交易等应用能力的评估，发现大模型在生成策略代码方面已有进展。整体来看，模型能力显著提升，但仍需改进。

🎯

关键要点

智源研究院发布了100余个大模型的综合评测结果，涵盖文本、语音、图像和视频等多模态。
评测显示，国内模型在中文能力和复杂场景任务上与国际水平仍有差距。
新评测增加了金融量化交易等应用能力的评估，发现大模型在生成策略代码方面已有进展。
整体来看，模型能力显著提升，但仍需改进。
语言模型主观评测中，字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo位居前两名。
文生视频模型方面，国产玩家领先全球。
K12学科测验中，大模型与海淀学生平均水平存在差距，普遍存在“文强理弱”的偏科情况。
评测扩展了任务解决能力内涵，首次增加了面向真实金融量化交易场景的应用能力评估。
多模态模型在图文理解任务上表现不一，部分开源模型缩小了与头部闭源模型的差距。
文生图模型普遍无法生成正确的中文文字，但头部模型已具备一定能力。
文生视频模型画质提升，但仍存在物体消失、闪现等问题。
语音语言模型能力提升显著，但在具体任务上与专家模型仍有差距。
智源研究院推出的FlagEval大模型角斗场覆盖约50款大模型，支持多种任务的评测。
评测发现用户对模型的响应时间和输出内容有更高要求。
FlagEval Debate评测发现大模型普遍缺乏辩论框架意识，存在“幻觉问题”。
金融量化交易评测显示，大模型已具备生成有回撤收益的策略代码的能力。
智源评测体系FlagEval覆盖全球800+开闭源模型，持续更新评测数据以规避泄露风险。

🔎

延伸解读

国内模型与国际水平的差距

评测结果显示，尽管国内大模型在中文能力上有所提升，但在复杂场景任务的表现上仍与国际一流水平存在显著差距。这提示我们在推动国内模型发展的同时，需关注国际前沿技术，以缩小差距。

金融量化交易的应用潜力

此次评测首次增加了金融量化交易场景的能力评估，发现大模型已具备生成有回撤收益的策略代码的能力。这表明大模型在金融领域的应用潜力正在被逐步挖掘，未来可能会对金融行业带来变革。

多模态模型的表现差异

多模态模型在图文理解任务上的表现不一，部分开源模型已缩小与头部闭源模型的差距，但仍需提升在复杂图文数据分析能力上的表现。这提醒开发者在选择模型时需考虑具体应用场景的需求。

K12学科测验的能力差异

在K12学科测验中，尽管模型的综合得分有所提升，但仍与海淀学生的平均水平存在差距，尤其在文科方面表现较好，而理科则相对较弱。这反映出大模型在教育领域应用时需针对不同学科进行优化。

❓

延伸问答

智源研究院发布的评测结果涵盖哪些模态？

评测结果涵盖文本、语音、图像和视频等多种模态。

国内大模型在中文能力上与国际水平的差距如何？

评测显示，国内模型在中文能力和复杂场景任务上与国际水平仍有显著差距。

此次评测中，哪个模型在语言能力评测中表现最好？

字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo位居前两名。

评测中新增了哪些应用能力的评估？

新评测增加了金融量化交易等应用能力的评估，测量大模型的收益优化和性能优化能力。

文生视频模型在评测中存在哪些问题？

文生视频模型普遍存在物体消失、闪现和无法理解物理规律等问题。

FlagEval大模型角斗场的主要功能是什么？

FlagEval大模型角斗场是面向用户开放的模型对战评测服务，支持多种任务的评测。

🏷️