量子位 ·

性能超越DeepSeek-OCR2，百度发布并开源新一代SOTA OCR模型

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

百度开源新一代OCR模型PaddleOCR-VL-1.5，实现全球首个“异形框定位”能力，精度达到94.5%。该模型在复杂文档解析中表现优异，支持多语种识别，推动OCR技术应用落地。

🎯

🔎

PaddleOCR-VL-1.5的“异形框定位”能力使其在处理倾斜和畸变文档时表现优异。这一技术的突破，意味着在金融票据处理、档案数字化等领域，能够有效减少传统OCR模型的识别失败，提升工作效率。

随着百度PaddleOCR-VL-1.5的发布，OCR领域的竞争愈发激烈。其他厂商如深度求索、字节跳动等也在推出新模型，行业技术更新速度加快，企业需关注新技术的应用与整合，以保持竞争优势。

PaddleOCR-VL-1.5新增对藏语、孟加拉语等多语种的支持，显示出其在全球化应用中的潜力。对于需要处理多语言文档的企业而言，这一功能将显著提升其在国际市场的竞争力。

❓

PaddleOCR-VL-1.5实现了全球首个“异形框定位”能力，整体精度达到94.5%，并能精准识别倾斜、弯折等非规则文档形态。

该模型在OmniDocBench V1.5中取得全球综合性能第一，表格结构理解和阅读顺序预测均位列第一。

该模型支持多语种识别，包括藏语、孟加拉语等，并在复杂结构识别方面有显著提升。

PaddleOCR-VL-1.5已全面开源，开发者可以通过GitHub和Hugging Face获取该模型。

该模型通过“异形框定位”能力，解决了传统OCR在真实场景中因文档形变导致的识别失败问题。

该模型广泛应用于金融票据处理、档案数字化和政务文档流转等场景。

🏷️