百度大脑 ·

96.33% 新SOTA！PaddleOCR-VL-1.6 发布，大模型时代的数据基座再升级

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

PaddleOCR-VL-1.6正式发布，基于1.5版本进行了优化，文档解析性能显著提升，OmniDocBench v1.6指标突破96.3%。新版本支持异形框定位，增强了表格、古籍及生僻字的识别能力，模型结构保持一致，用户可快速适配。此外，PaddleOCR-VL系列与多家硬件及云平台合作，推动文档智能化转型。

🎯

关键要点

PaddleOCR-VL-1.6正式发布，基于1.5版本进行了优化，文档解析性能显著提升。
OmniDocBench v1.6指标突破96.3%，在文本、公式、表格识别方面领先。
新版本支持异形框定位，增强了表格、古籍及生僻字的识别能力。
模型结构与PaddleOCR-VL-1.5完全一致，用户可快速适配。
PaddleOCR-VL系列与多家硬件及云平台合作，推动文档智能化转型。
PaddleOCR-VL-1.6采用模型驱动的数据构建与渐进式后训练策略，提升文档解析性能。
数据引擎聚焦模型弱点，进行精准优化，提升数据质量。
强化学习阶段设计高潜力样本挖掘策略，进一步提升模型性能。

🔎

延伸解读

文档解析性能提升的意义

PaddleOCR-VL-1.6在文档解析性能上取得显著提升，突破96.3%的OmniDocBench v1.6指标。这意味着在实际应用中，用户可以更高效地处理复杂文档，尤其是在表格和古籍等特殊场景下，提升了工作效率和准确性。

模型适配的便利性

新版本与PaddleOCR-VL-1.5的模型结构完全一致，用户可以零成本快速适配。这种设计降低了技术门槛，使得更多企业和开发者能够轻松接入和使用先进的文档解析技术，推动智能化转型。

数据引擎的创新机制

PaddleOCR-VL-1.6采用了面向模型弱点的精准优化数据引擎，强调通过分析模型的薄弱环节来提升数据质量。这种方法不仅解决了数据不足的问题，还提高了训练数据的可靠性，为模型的进一步优化奠定了基础。

❓

延伸问答

PaddleOCR-VL-1.6的主要改进是什么？

PaddleOCR-VL-1.6在1.5版本的基础上进行了优化，文档解析性能显著提升，OmniDocBench v1.6指标突破96.3%。

PaddleOCR-VL-1.6支持哪些新功能？

新版本支持异形框定位，增强了表格、古籍及生僻字的识别能力。

PaddleOCR-VL-1.6的模型结构有什么变化？

PaddleOCR-VL-1.6的模型结构与PaddleOCR-VL-1.5完全一致，用户可以零成本适配。

PaddleOCR-VL-1.6如何提升文档解析性能？

通过模型驱动的数据构建与渐进式后训练策略，针对模型弱点进行精准优化。

PaddleOCR-VL-1.6与哪些硬件和云平台合作？

PaddleOCR-VL系列与多家硬件厂商和云平台合作，包括Intel、Arm、百度智能云等。

PaddleOCR-VL-1.6的开源情况如何？

PaddleOCR-VL-1.6的代码和模型权重已开源至Github和HuggingFace，用户可以下载使用。

🏷️