HyperAI超神经 ·

NeurIPS 2025丨华中科大等发布OCRBench v2，Gemini获中文榜冠军但分数仅及格

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

光学字符识别（OCR）技术已从简单识别发展到理解文档结构。随着深度学习的进步，OCR能力在多模态模型中逐渐显现，成为智能任务的基础。华中科技大学等推出的OCRBench v2评测基准涵盖23种任务，评估58个主流模型，发现模型普遍存在“偏科”现象，整体表现尚可，但在细粒度任务上得分较低。开源模型逐渐具备竞争力，榜单将定期更新。

🎯

关键要点

光学字符识别（OCR）技术已从简单识别发展到理解文档结构，能够解析复杂场景中的表格和图文混排内容。
OCRBench v2评测基准涵盖23种任务，评估58个主流模型，反映出模型在细粒度任务上的表现较低。
评测结果显示，主流模型普遍存在“偏科”现象，平均得分约为60分，且在文本定位和元素解析等任务上得分偏低。
开源模型逐渐具备竞争力，英文榜单前10中有5个为开源模型，中文榜单前10中有7个为开源模型。
OCRBench v2榜单将定期更新，以持续追踪最新的评测结果和模型表现。

🔎

延伸解读

OCR技术的演变与应用

光学字符识别（OCR）技术已从简单的文字识别发展到理解文档结构，能够处理复杂的图文混排和表格。这一演变使得OCR不仅是信息提取的工具，更是多模态智能系统的核心能力，推动了文档问答和知识抽取等高级应用的发展。

OCRBench v2的评测意义

OCRBench v2作为新一代评测基准，涵盖23种任务，能够更全面地反映模型在复杂场景中的表现。其设计合理性和数据构造的高质量确保了评测结果的可信度，为研究者提供了重要的参考依据，帮助识别模型的优缺点。

模型表现的偏科现象

评测结果显示，主流OCR模型普遍存在“偏科”现象，平均得分仅为60分，尤其在细粒度任务上表现不佳。这提示开发者在优化模型时需关注各项能力的均衡提升，以适应更复杂的应用场景。

开源模型的崛起

尽管闭源模型在整体性能上占优，但开源模型在OCR任务中逐渐展现出强大的竞争力。特别是在中文榜单中，7个前10名模型为开源，这表明开源社区在推动技术进步和应用普及方面的潜力。

❓

延伸问答

OCRBench v2评测基准的主要内容是什么？

OCRBench v2评测基准涵盖23种任务，评估58个主流模型，主要反映模型在文本识别、文本定位、元素解析等方面的能力。

Gemini在OCRBench v2中的表现如何？

Gemini-2.5-Pro在中文榜单中获得冠军，在英文榜单中获得季军，显示出其在计算类题目上的优势。

OCR技术的发展趋势是什么？

OCR技术已从简单的字符识别发展到理解文档结构，能够解析复杂场景中的表格和图文混排内容。

开源模型在OCRBench v2中的表现如何？

开源模型在OCRBench v2中表现出色，英文榜单前10中有5个为开源模型，中文榜单前10中有7个为开源模型。

OCRBench v2的评测结果有什么重要发现？

评测结果显示，主流模型普遍存在“偏科”现象，整体得分约为60分，细粒度任务得分较低。

OCRBench v2将如何更新？

OCRBench v2榜单将按季度更新，以持续追踪最新的评测结果和模型表现。

🏷️