InfoQ ·

百度在Hugging Face发布PP-OCRv5，光学字符识别基准测试中超越VLMs

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

百度在Hugging Face发布了PP-OCRv5，这是一种高效的光学字符识别模型，专注于文本识别，支持多语言，适合边缘部署。尽管对其多语言能力有疑虑，但在手写和印刷文本的基准测试中表现优异。

🎯

🔎

PP-OCRv5专为文本识别设计，具有高效性和准确性，适合在资源受限的设备上运行。其轻量化特性使得在边缘计算场景中应用更加灵活，尤其适合需要快速处理文本的行业，如物流、金融和教育等。

尽管PP-OCRv5支持超过40种语言，但目前主要集中在英语和中文，这可能限制其在全球市场的应用。用户在选择时需考虑其多语言处理能力是否满足特定需求，尤其是在多语言环境下的应用。

在OmniDocBench基准测试中，PP-OCRv5的表现超越了许多大型视觉语言模型，显示出其在手写和印刷文本识别中的优势。然而，社区对其在特定用例中的表现仍有疑虑，特别是在处理复杂文本时的准确性。

❓

PP-OCRv5是一种高效的光学字符识别模型，专注于文本识别，具有准确性、效率和速度，适合边缘部署。

PP-OCRv5专为文本识别设计，避免了大型视觉语言模型在定位和边界框准确性上的问题，并且不生成虚假内容。

PP-OCRv5支持超过40种语言，但社区对其多语言能力提出质疑，认为目前主要限于英语和中文。

在Intel Xeon Gold 6271C CPU上，PP-OCRv5的移动版本可以每秒处理超过370个字符，适合大规模或边缘部署。

PP-OCRv5的两阶段管道包括图像预处理、文本检测、文本方向分类和文本识别。

用户可以在Hugging Face Spaces上上传PDF或图像，实时获取OCR输出，也可以通过PaddleOCR在本地安装该模型。

🏷️