100+大模型综测结果出炉!智源发布FlagEval“百模”评测结果,覆盖文本语音图片视频多种模态
💡
原文中文,约3700字,阅读约需9分钟。
📝
内容提要
智源研究院发布了100余个大模型的综合评测结果,涵盖文本、语音、图像和视频等多模态。评测显示,国内模型在中文能力和复杂场景任务上与国际水平仍有差距。新评测增加了金融量化交易等应用能力的评估,发现大模型在生成策略代码方面已有进展。整体来看,模型能力显著提升,但仍需改进。
🎯
关键要点
- 智源研究院发布了100余个大模型的综合评测结果,涵盖文本、语音、图像和视频等多模态。
- 评测显示,国内模型在中文能力和复杂场景任务上与国际水平仍有差距。
- 新评测增加了金融量化交易等应用能力的评估,发现大模型在生成策略代码方面已有进展。
- 整体来看,模型能力显著提升,但仍需改进。
- 语言模型主观评测中,字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo位居前两名。
- 文生视频模型方面,国产玩家领先全球。
- K12学科测验中,大模型与海淀学生平均水平存在差距,普遍存在“文强理弱”的偏科情况。
- 评测扩展了任务解决能力内涵,首次增加了面向真实金融量化交易场景的应用能力评估。
- 多模态模型在图文理解任务上表现不一,部分开源模型缩小了与头部闭源模型的差距。
- 文生图模型普遍无法生成正确的中文文字,但头部模型已具备一定能力。
- 文生视频模型画质提升,但仍存在物体消失、闪现等问题。
- 语音语言模型能力提升显著,但在具体任务上与专家模型仍有差距。
- 智源研究院推出的FlagEval大模型角斗场覆盖约50款大模型,支持多种任务的评测。
- 评测发现用户对模型的响应时间和输出内容有更高要求。
- FlagEval Debate评测发现大模型普遍缺乏辩论框架意识,存在“幻觉问题”。
- 金融量化交易评测显示,大模型已具备生成有回撤收益的策略代码的能力。
- 智源评测体系FlagEval覆盖全球800+开闭源模型,持续更新评测数据以规避泄露风险。
❓
延伸问答
智源研究院发布的评测结果涵盖哪些模态?
评测结果涵盖文本、语音、图像和视频等多种模态。
国内大模型在中文能力上与国际水平的差距如何?
评测显示,国内模型在中文能力和复杂场景任务上与国际水平仍有显著差距。
此次评测中,哪个模型在语言能力评测中表现最好?
字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo位居前两名。
评测中新增了哪些应用能力的评估?
新评测增加了金融量化交易等应用能力的评估,测量大模型的收益优化和性能优化能力。
文生视频模型在评测中存在哪些问题?
文生视频模型普遍存在物体消失、闪现和无法理解物理规律等问题。
FlagEval大模型角斗场的主要功能是什么?
FlagEval大模型角斗场是面向用户开放的模型对战评测服务,支持多种任务的评测。
➡️