此存储库包含多种文件格式的自定义解析器,包括PDF、HTML、DOCX、PPTX等。基于规则的解析器比基于视觉模型的解析器更快且实用。PDF解析器具有章节和段落提取、表格识别、去除重复页眉页脚等功能。使用Tika进行文档解析,可与llmsherpa LayoutPDFReader结合使用。与Azure文档智能相比,此解析器速度快且成本低。
完成下面两步后,将自动完成登录并继续当前操作。