极道 ·

nlm-ingestor：RAG基于规则的开源PDF解析器

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

此存储库包含多种文件格式的自定义解析器，包括PDF、HTML、DOCX、PPTX等。基于规则的解析器比基于视觉模型的解析器更快且实用。PDF解析器具有章节和段落提取、表格识别、去除重复页眉页脚等功能。使用Tika进行文档解析，可与llmsherpa LayoutPDFReader结合使用。与Azure文档智能相比，此解析器速度快且成本低。

🎯

关键要点

此存储库包含多种文件格式的自定义解析器，包括PDF、HTML、DOCX、PPTX等。
基于规则的解析器比基于视觉模型的解析器速度快100倍，适用于大文本层PDF。
PDF解析器使用nlmatics修改版Tika，支持章节、段落、表格、列表等功能。
PDF解析器提供OCR选项，能够处理扫描页面。
安装和运行PDF解析器需要最新版本的Java和nlm-ingestor。
Tika支持多种文件格式，适合文档解析，XHTML输出有助于RAG文档分块。
与Azure文档智能相比，此解析器速度快且成本低，适合大规模文档处理。

🏷️

继续阅读

从 MyEMS v6.6.0 看开源能源管理系统中的 AI 报表实践
MyEMS v6.6.0 更新增强了能源管理系统的功能，特别是在报表和数据分析方面。新增的 DeepSeek AI 分析功能可以解释数据趋势，提升了报表的...
使用Telnyx AI推理构建简单的检索增强生成（RAG）应用
本文介绍了如何使用Telnyx AI推理构建简单的检索增强生成（RAG）应用。核心流程包括存储文档、嵌入用户问题、查找相关文档并返回答案。示例应用使用Fl...
开源Weave Router：在Claude、Codex或Cursor里智能路由各种模型
Weave Router是一个智能模型路由工具，能够自动选择最合适的AI模型处理请求，节省40%的token开销。它通过强化学习优化模型选择，兼顾成本和质...
在Fable 5禁令后，Anthropic和19个组织联合成立开源安全机构
Akrites是由Linux基金会发起的新组织，旨在协调开源软件的漏洞发现和修复。该组织汇集了包括AWS、谷歌、微软在内的20家企业，以应对AI技术带来的...
人工智能时代的开源维护
人工智能正在改变软件开发，Kubernetes社区正在适应AI辅助编码。该项目制定了AI政策，确保贡献者在使用AI工具时保持透明和责任，要求披露AI的使用...
国产开源智能体操作系统在京发布加速全栈智能终端生态建设
6月25日，openKylin开源智能体操作系统在北京发布，标志着我国在智能体系统级支撑领域的突破。该系统基于openKylin 2.0，满足全球人工智能...

内容提要

关键要点

标签

继续阅读