小红花·文摘

智源研究院发布了100余个大模型的综合评测结果，涵盖文本、语音、图像和视频等多模态。评测显示，国内模型在中文能力和复杂场景任务上与国际水平仍有差距。新评测增加了金融量化交易等应用能力的评估，发现大模型在生成策略代码方面已有进展。整体来看，模型能力显著提升，但仍需改进。