小红花·文摘

ASF项目聚焦：Apache Tika

The Apache Software Foundation Blog ·

在这篇文章中，作者解决了Elasticsearch（ES）无法解析docx和doc文档的问题。他尝试了多种方法，包括检查base64码、修正pipline、检查word文档和Excel解析等，但都没有成功。最终，作者决定直接使用Tika库来解析文档，并成功解析了pdf、docx、excel、ppt、markdown和txt等多种格式的文件内容。作者建议在设计文档解析时使用Tika库，而不是依赖ES的插件。

ES解析word内容为空的问题和直接使用Tika解析文档的方案

六虎 ·

此存储库包含多种文件格式的自定义解析器，包括PDF、HTML、DOCX、PPTX等。基于规则的解析器比基于视觉模型的解析器更快且实用。PDF解析器具有章节和段落提取、表格识别、去除重复页眉页脚等功能。使用Tika进行文档解析，可与llmsherpa LayoutPDFReader结合使用。与Azure文档智能相比，此解析器速度快且成本低。

nlm-ingestor：RAG基于规则的开源PDF解析器

极道 ·