DEV Community ·

宣布Kreuzberg v2.0：一个轻量级、现代化的Python文本提取库

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

Kreuzberg是一个Python库，提供统一的异步和同步接口，用于从PDF、图像和Office文档中提取文本。v2.0版本提升了性能，支持同步提取、批处理和智能PDF处理，适合开发文档索引和自动化工具的开发者。

🎯

🔎

Kreuzberg v2.0在性能和功能上有显著提升，特别是同步提取和批处理功能，使得处理多个文件变得更加高效。这对于需要快速处理大量文档的开发者来说，尤其重要。

Kreuzberg非常适合构建文档索引、分析和自动化工具的开发者。其轻量级和低资源占用的特性，使其在无服务器和Docker环境中表现优异，适合各种规模的项目。

与其他文本提取库相比，Kreuzberg在资源占用和适用环境上具有明显优势。特别是在低资源环境中，Kreuzberg的表现更为出色，适合对性能有高要求的应用场景。

❓

Kreuzberg v2.0支持同步提取、批处理、智能PDF处理和元数据提取，适用于多种文档格式。

Kreuzberg适合开发Retrieval-Augmented Generation系统、LLM驱动的应用程序以及文档索引和自动化工具的开发者。

Kreuzberg在资源占用和适用环境上具有优势，适合低资源环境，并避免了云依赖和定价问题。

Kreuzberg v2.0支持智能PDF处理，能够在直接提取失败时自动使用OCR。

Kreuzberg支持PDF、图像、Office文档、Markdown、LaTeX等多种格式。

Kreuzberg具有较小的依赖性，相比其他库占用更少的资源。

🏷️