百度大脑 ·

PaddleOCR 3.5 发布：Web 端直用、文档一键转 Markdown，生态交互新体验

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

PaddleOCR 3.5正式发布，新增PaddleOCR.js，支持浏览器端OCR功能，简化开发者体验。可将文档解析结果导出为Word和Markdown格式，并支持多种文档类型。此版本整合了Transformers推理引擎，提升了OCR能力的灵活性和兼容性，旨在降低AI应用开发门槛，推动OCR技术发展。

🎯

关键要点

PaddleOCR 3.5正式发布，新增PaddleOCR.js，支持浏览器端OCR功能。
开发者可以将文档解析结果导出为Word和Markdown格式，支持多种文档类型。
PaddleOCR.js提供了更完整的使用体验，支持ONNX Runtime Web和WebGPU、Wasm加速后端。
PaddleOCR 3.5整合了Transformers推理引擎，提升OCR能力的灵活性和兼容性。
支持将PaddleOCR-VL系列模型的预测结果导出为Word格式，并将Word、Excel、PPT等文档转换为Markdown格式。
开发者只需安装相应版本的transformers和paddleocr，即可通过统一接口完成调用。
PaddleOCR 3.5旨在降低AI应用开发门槛，推动OCR技术发展。

🔎

延伸解读

浏览器端OCR的优势

PaddleOCR 3.5引入的PaddleOCR.js使得OCR功能可以直接在浏览器中使用，这不仅提升了用户体验，还保护了用户隐私。开发者可以在不离开浏览器的情况下完成数据识别，简化了系统架构，降低了开发复杂度。

文档格式转换的实用性

新版本支持将多种办公文档（如Word、Excel、PPT）转换为Markdown格式，这对于需要将文档内容结构化以便后续处理的开发者来说极为便利。这一功能有助于提升文档的可用性，尤其是在与大模型结合时。

与Transformers的兼容性

PaddleOCR 3.5将Transformers纳入统一推理引擎，开发者可以通过相同的接口切换不同的后端。这种兼容性降低了跨生态集成的成本，使得在Hugging Face环境中使用OCR功能变得更加顺畅。

❓

延伸问答

PaddleOCR 3.5的新功能有哪些？

PaddleOCR 3.5新增了PaddleOCR.js，支持浏览器端OCR功能，并可将文档解析结果导出为Word和Markdown格式。

如何在浏览器中使用PaddleOCR.js？

开发者可以通过安装相应版本的transformers和paddleocr，使用统一接口在浏览器中调用PaddleOCR.js。

PaddleOCR 3.5如何支持多种文档格式？

PaddleOCR 3.5支持将Word、Excel、PPT等文档转换为Markdown格式，并能将PaddleOCR-VL模型的预测结果导出为Word格式。

PaddleOCR 3.5如何提升OCR能力的灵活性？

PaddleOCR 3.5整合了Transformers推理引擎，允许开发者通过统一配置切换不同底层后端，提升了OCR能力的灵活性和兼容性。

PaddleOCR.js的性能特点是什么？

PaddleOCR.js支持ONNX Runtime Web、WebGPU和Wasm加速后端，提供Worker模式以不阻塞主线程，提升性能。

如何将文档解析结果导出为Word格式？

使用PaddleOCR-VL模型时，只需几行代码调用相应方法，即可将解析结果保存为Word格式。

🏷️