💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

Parsr是AXA开发的开源文档解析工具,支持PDF、图像、DOCX等格式,能够将文档转换为结构化输出(如JSON、Markdown)。它专注于文档清理和层次重建,提取文本、段落、表格和元数据,适用于搜索归档和发票提取等场景,并支持本地和私有环境部署。

🎯

关键要点

  • Parsr是AXA开发的开源文档解析工具,支持多种文档格式。
  • 能够将文档转换为结构化输出,如JSON、Markdown、CSV等。
  • 专注于文档清理和层次重建,提取文本、段落、表格和元数据。
  • 支持多种格式,包括PDF、扫描图像、办公文档和电子邮件。
  • 具备清理和层次重建功能,能够恢复文档结构和检测标题、列表等。
  • 支持将表格导出为结构化的CSV/DataFrame格式,适应复杂布局。
  • 提供REST API、CLI、Docker镜像和可视化查看器,适合私有部署。
  • 适用于归档、搜索预处理、发票和报告提取、合同和合规审查等场景。
  • 可以在本地或受控私有环境中运行,以满足合规和隐私需求。
➡️

继续阅读