性能超越DeepSeek-OCR2,百度发布并开源新一代SOTA OCR模型
💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
百度开源新一代OCR模型PaddleOCR-VL-1.5,实现全球首个“异形框定位”能力,精度达到94.5%。该模型在复杂文档解析中表现优异,支持多语种识别,推动OCR技术应用落地。
🎯
关键要点
- 百度发布并开源新一代文档解析模型PaddleOCR-VL-1.5。
- PaddleOCR-VL-1.5实现全球首个OCR模型的“异形框定位”能力,整体精度达到94.5%。
- 该模型能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,解决传统OCR模型在真实场景中的识别失败问题。
- PaddleOCR-VL-1.5在OmniDocBench V1.5多个关键指标上取得领先表现,表格结构理解和阅读顺序预测均位列第一。
- 模型集成印章识别、文本检测与识别等任务能力,支持多语种识别,显著提升复杂结构识别能力。
- 行业竞争加剧,多个主流模型厂商相继推出新一代OCR模型。
- PaddleOCR-VL-1.5的系统突破有望降低产业应用门槛,推动OCR技术在真实生产环境中的深度落地。
- PaddleOCR-VL-1.5已全面开源,开发者可通过GitHub、Hugging Face获取。
❓
延伸问答
PaddleOCR-VL-1.5的主要特点是什么?
PaddleOCR-VL-1.5实现了全球首个“异形框定位”能力,整体精度达到94.5%,并能精准识别倾斜、弯折等非规则文档形态。
PaddleOCR-VL-1.5在文档解析方面的表现如何?
该模型在OmniDocBench V1.5中取得全球综合性能第一,表格结构理解和阅读顺序预测均位列第一。
PaddleOCR-VL-1.5支持哪些语言?
该模型支持多语种识别,包括藏语、孟加拉语等,并在复杂结构识别方面有显著提升。
PaddleOCR-VL-1.5的开源情况如何?
PaddleOCR-VL-1.5已全面开源,开发者可以通过GitHub和Hugging Face获取该模型。
PaddleOCR-VL-1.5如何解决传统OCR模型的识别问题?
该模型通过“异形框定位”能力,解决了传统OCR在真实场景中因文档形变导致的识别失败问题。
PaddleOCR-VL-1.5的应用场景有哪些?
该模型广泛应用于金融票据处理、档案数字化和政务文档流转等场景。
➡️