DEV Community ·

使用“Docling Parse”！

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

Docling Parse是一个简单的Python包，能够从程序化PDF中提取文本、路径和位图图像及其坐标。用户只需安装该包并使用示例代码，即可轻松提取所需内容，适用于PDF转换。

🎯

🔎

Docling Parse适用于需要从程序化PDF中提取信息的场景，如数据分析、文档处理和内容转换。它能够提取文本、路径和图像，方便用户进行后续的数据处理和可视化。

Docling Parse的安装过程非常简单，只需通过命令行执行pip install docling-parse即可。对于初学者来说，示例代码的提供也降低了使用门槛，便于快速上手。

Docling Parse支持命令行工具进行可视化，用户可以根据需要选择不同的单元类型（字符、单词、行）进行解析。这种灵活性使得用户能够根据具体需求定制输出格式。

❓

Docling Parse是一个简单的Python包，用于从程序化PDF中提取文本、路径和位图图像及其坐标。

可以通过命令行使用命令：pip install docling-parse来安装Docling Parse。

Docling Parse可以提取文本、路径和位图图像及其坐标。

用户可以通过示例代码加载PDF文件并使用DoclingPdfParser进行解析。

Docling Parse支持字符、单词和行级别的输出类型。

可以通过命令行运行可视化工具，使用命令：poetry run python ./docling_parse/visualize.py -i <path-to-pdf-file> -c word --interactive。

🏷️