机器之心 ·

智源发布FlagEval「百模」评测结果，丈量模型生态变局

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

智源研究院发布2024年大模型评测结果，涵盖语言和视觉等多模态模型。新增金融量化交易能力，显示国内模型在复杂任务上仍有差距。字节跳动和百度的语言模型表现突出，视觉模型逐渐缩小与闭源模型的差距，但仍需提升。整体来看，大模型能力明显提升，但实际应用中仍需改进。

🎯

关键要点

智源研究院发布2024年大模型评测结果，涵盖语言和视觉等多模态模型。
新增金融量化交易能力，显示国内模型在复杂任务上仍有差距。
字节跳动和百度的语言模型表现突出，视觉模型逐渐缩小与闭源模型的差距，但仍需提升。
整体来看，大模型能力明显提升，但实际应用中仍需改进。
评测扩展了任务解决能力，新增数据处理、高级编程和工具调用能力。
首次增加金融量化交易场景的应用能力评估，测量收益优化和性能优化。
多模态模型发展迅速，语言模型发展相对放缓。
语言模型在复杂场景任务上与国际一流水平存在显著差距。
视觉语言多模态模型在图文理解任务上缩小与闭源模型的差距。
文生图模型已具备中文文字生成能力，但仍存在复杂场景处理不足的问题。
文生视频模型画质提升，但存在物体消失、闪现等问题。
语音语言模型能力提升，但在具体任务上与专家模型仍有差距。
K12学科测验显示模型综合得分提升，但仍与人类学生存在差距。
FlagEval大模型角斗场覆盖约50款大模型，反映用户对模型的偏好。
模型辩论平台FlagEval Debate评测模型的逻辑推理和语言表达能力。
金融量化交易评测显示大模型具备生成策略代码的能力，接近初级量化交易员水平。
智源评测体系FlagEval覆盖全球800多个开闭源模型，持续更新评测数据。
智源研究院致力于打造科学、权威、公正、开放的评测体系，推动大模型技术生态发展。

🔎

延伸解读

多模态模型的快速发展

智源的评测结果显示，多模态模型在各类任务中的表现逐渐提升，尤其是在图文理解方面，开源模型正在缩小与闭源模型的差距。然而，长尾视觉知识和复杂图文数据分析能力仍需加强，开发者应关注这些领域的潜力与挑战。

金融量化交易能力的评估

此次评测首次引入金融量化交易场景，显示出大模型在生成策略代码方面的能力已接近初级量化交易员水平。这为金融科技领域的应用提供了新的可能性，但模型在实际代码生成任务中的表现差异仍需引起重视。

语言模型的国际竞争力

尽管国内语言模型在一般场景下表现稳定，但在复杂任务中仍与国际一流水平存在显著差距。开发者应关注如何提升模型在复杂场景下的表现，以缩小这一差距，增强国际竞争力。

K12学科测验的启示

智源的K12学科测验显示，尽管模型综合得分有所提升，但仍与人类学生存在差距，尤其在主观题的表现上。教育领域的应用开发者应考虑如何利用模型的优势，同时弥补其在复杂推理和文化理解方面的不足。

❓

延伸问答

智源研究院发布的2024年大模型评测结果有哪些主要内容？

评测结果涵盖语言和视觉等多模态模型，新增金融量化交易能力，显示国内模型在复杂任务上仍有差距。

哪些公司在语言模型评测中表现突出？

字节跳动和百度的语言模型表现突出，分别位居第一和第二。

大模型在金融量化交易方面的能力如何？

大模型具备生成策略代码的能力，接近初级量化交易员水平，但在实际代码生成任务上整体能力偏弱。

智源评测体系FlagEval的特点是什么？

FlagEval评测体系覆盖全球800多个开闭源模型，致力于打造科学、权威、公正、开放的评测体系。

文生图模型在中文文字生成方面的表现如何？

头部文生图模型已具备中文文字生成能力，但在复杂场景处理上仍存在不足。

K12学科测验中大模型的表现如何？

模型综合得分提升了12.86%，但仍与人类学生存在差距，尤其在文科试题上表现较好。

🏷️