💡
原文英文,约200词,阅读约需1分钟。
📝
内容提要
Parsr是AXA开发的开源文档解析工具,支持PDF、图像、DOCX等格式,能够将文档转换为结构化输出(如JSON、Markdown)。它专注于文档清理和层次重建,提取文本、段落、表格和元数据,适用于搜索归档和发票提取等场景,并支持本地和私有环境部署。
🎯
关键要点
-
Parsr是AXA开发的开源文档解析工具,支持多种文档格式。
-
能够将文档转换为结构化输出,如JSON、Markdown、CSV等。
-
专注于文档清理和层次重建,提取文本、段落、表格和元数据。
-
支持多种格式,包括PDF、扫描图像、办公文档和电子邮件。
-
具备清理和层次重建功能,能够恢复文档结构和检测标题、列表等。
-
支持将表格导出为结构化的CSV/DataFrame格式,适应复杂布局。
-
提供REST API、CLI、Docker镜像和可视化查看器,适合私有部署。
-
适用于归档、搜索预处理、发票和报告提取、合同和合规审查等场景。
-
可以在本地或受控私有环境中运行,以满足合规和隐私需求。
❓
延伸问答
Parsr支持哪些文档格式的解析?
Parsr支持PDF、扫描图像、DOCX、EML等多种文档格式的解析。
Parsr的主要功能是什么?
Parsr的主要功能包括文档清理、层次重建、文本和表格提取,以及将文档转换为结构化输出。
Parsr如何处理表格数据?
Parsr能够将表格导出为结构化的CSV或Pandas DataFrame格式,支持复杂布局。
Parsr适合哪些使用场景?
Parsr适用于归档、搜索预处理、发票和报告提取、合同和合规审查等场景。
Parsr的部署方式有哪些?
Parsr提供REST API、CLI、Docker镜像和可视化查看器,适合私有部署。
Parsr如何满足合规和隐私需求?
Parsr可以在本地或受控私有环境中运行,以满足合规和隐私需求。
➡️