百度大脑 ·

LangChain x PaddleOCR：重磅集成！让 AI Agents 真正看懂复杂文档

💡 原文中文，约6300字，阅读约需15分钟。

📝

内容提要

LangChain 集成了 PaddleOCR-VL-1.5，增强了文档理解能力。通过 PADDLEOCRVLLoader，开发者可以从 PDF 和图像中提取文本与版面信息，输出结构化数据。这一集成提升了 AI 应用的信息解析能力，支持多语言处理，适用于复杂文档的智能处理工作流。

🎯

关键要点

LangChain 集成了 PaddleOCR-VL-1.5，增强了文档理解能力。
通过 PADDLEOCRVLLoader，开发者可以从 PDF 和图像中提取文本与版面信息，输出结构化数据。
PaddleOCR-VL-1.5 能从 PDF 和图像中提取文本与版面信息，并将内容转成结构化数据。
支持 110+ 种语言，能够处理多语言资料，为后续工作模块建立统一输入基础。
PaddleOCR-VL-1.5 提供的 raw_response 允许访问底层的文档解析结果，满足开发者对细粒度控制的需求。
集成提升了 LLM 应用在信息摄取阶段的解析能力，使文档中的文本、版面与结构语义能够被后续模块充分利用。
PaddleOCR-VL-1.5 的接入为复杂文档提供了更高质量、更结构化的处理能力，适用于金融 KYC、企业报销等场景。

🔎

延伸解读

文档理解能力的提升

LangChain 集成 PaddleOCR-VL-1.5 后，文档理解能力显著增强。开发者可以通过 PADDLEOCRVLLoader 直接从 PDF 和图像中提取文本与版面信息，输出结构化数据。这一功能使得 AI 应用在处理复杂文档时，能够更好地理解文本的排版和结构，提升了信息解析的准确性和效率。

多语言支持的优势

PaddleOCR-VL-1.5 支持超过 110 种语言的文档处理，这为全球化应用提供了便利。开发者可以在多语言环境中，利用统一的输入基础进行文档解析，减少了因语言差异带来的复杂性，适用于金融、企业报销等多种场景。

细粒度控制的实现

PaddleOCR-VL-1.5 提供的 raw_response 允许开发者访问底层的文档解析结果。这种细粒度控制使得开发者能够根据具体需求进行调试和优化，满足不同应用场景的特定要求，提升了系统的灵活性和可定制性。

❓

延伸问答

LangChain 集成 PaddleOCR-VL-1.5 有什么优势？

该集成增强了文档理解能力，使 AI 应用能够更好地解析复杂文档，支持多语言处理。

PaddleOCR-VL-1.5 如何处理 PDF 和图像中的文本？

PaddleOCR-VL-1.5 能从 PDF 和图像中提取文本与版面信息，并将内容转成结构化数据。

开发者如何在 LangChain 中使用 PaddleOCR-VL-1.5？

开发者需安装 langchain-paddleocr 包，并准备 API URL 和 Access Token，然后使用 PaddleOCRVLLoader 进行文档加载。

PaddleOCR-VL-1.5 支持多少种语言？

PaddleOCR-VL-1.5 支持 110 种以上语言，能够处理多语言资料。

PaddleOCR-VL-1.5 的 raw_response 有什么用？

raw_response 允许开发者访问底层的文档解析结果，满足对细粒度控制的需求。

LangChain 和 PaddleOCR-VL-1.5 的集成适用于哪些场景？

适用于金融 KYC、企业报销等复杂文档的智能处理工作流。

🏷️