量子位 ·

国产大模型高考出分了：裸分683，选清华还是北大？

Q: O3的语文成绩为何较低？

O3因语文写作失误，语文成绩仅95分。

Q: 豆包有望进入哪些大学？

豆包有望进入清华大学或北京大学。

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

国产大模型高考成绩公布，豆包文科683分、理科648分排名第一，Gemini理科655分同样排名第一。整体表现优秀，但O3因语文写作失误分数较低。豆包有望进入清华、北大，评测标准基于山东省试卷，数学和语文表现良好，但图像理解和细节推理仍需提升。

🎯

关键要点

国产大模型高考成绩公布，豆包文科683分、理科648分排名第一，Gemini理科655分同样排名第一。
整体表现优秀，但O3因语文写作失误分数较低，仅95分。
豆包有望进入清华、北大，评测标准基于山东省试卷，数学和语文表现良好。
图像理解和细节推理仍需提升，尤其在图像题和复杂推理题上表现不佳。
评测采用全国一卷和山东卷，评分方式参考高考判卷，确保公平性。
大模型在数学、语文、英语等科目表现良好，但作文写作存在问题。
豆包大模型1.6系列通过多模态融合和长上下文能力提升，表现优异。
深度思考能力和动态思考能力的引入，帮助模型在复杂问题上取得更好成绩。
图文结合的测试显示，Seed1.6-Thinking在生物和化学科目上表现提升显著。
未来全模态推理将是值得深入探索的方向。

🔎

延伸解读

高考评测的公平性

本次大模型高考评测采用了全国一卷和山东卷的试卷，评分方式参考高考判卷，确保了评测的公平性。这种标准化的评测方式使得不同模型的表现可以进行有效比较，为未来的AI教育应用提供了重要参考。

模型表现的局限性

尽管豆包和Gemini在多个科目中表现优异，但在图像理解和复杂推理题上仍显不足。这表明当前大模型在处理多模态信息时存在挑战，未来需要进一步提升其图像处理能力，以应对更复杂的考试题型。

作文写作的短板

大模型在作文写作中暴露出一些问题，如内容刻板、字数不达标等。这反映出AI在创造性写作方面的局限性，未来的研究应关注如何提升模型的语言表达能力和创造性思维，以更好地适应人类的写作标准。

❓

延伸问答

豆包和Gemini的高考成绩分别是多少？

豆包文科683分、理科648分，Gemini理科655分。

O3的语文成绩为何较低？

O3因语文写作失误，语文成绩仅95分。

豆包有望进入哪些大学？

豆包有望进入清华大学或北京大学。

评测标准是如何制定的？

评测采用全国一卷和山东卷，评分参考高考判卷方式，确保公平性。

豆包大模型的能力提升主要依靠哪些技术？

豆包通过多模态融合、深度思考能力和动态思考能力等技术提升能力。

大模型在图像理解方面存在哪些不足？

大模型在图像理解和细节推理上表现不佳，尤其在图像题和复杂推理题上。

🏷️