小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了五个Python脚本，旨在自动化处理PDF文件的常见任务，包括合并与拆分PDF、提取文本和表格、添加水印和页码、删除敏感内容，以及提取元数据生成PDF清单。这些脚本支持批处理，提升了工作效率。

5个实用的Python脚本来自动化处理无聊的PDF任务

KDnuggets ·

.NET Core + Semantic Kernel：用AI将PDF文档结构化为JSON的终极方案

.NET Core + Semantic Kernel：用AI将PDF文档结构化为JSON的终极方案

dotNET跨平台 ·

超越单一提取器：重新思考HTML到文本提取在大规模语言模型预训练中的应用

超越单一提取器：重新思考HTML到文本提取在大规模语言模型预训练中的应用

Apple Machine Learning Research ·

如何使用Node.js和TypeScript构建自定义PDF文本提取器

如何使用Node.js和TypeScript构建自定义PDF文本提取器

freeCodeCamp.org ·

Dify × PaddleOCR：强强联手，深度集成重塑 Agent 工作流智能文档底座

Dify × PaddleOCR：强强联手，深度集成重塑 Agent 工作流智能文档底座

百度大脑 ·

如何在自己的数据上对嵌入模型进行基准测试

如何在自己的数据上对嵌入模型进行基准测试

freeCodeCamp.org ·

PyMuPDF - 一款高性能的Python库，用于数据提取、分析、转换等...

PyMuPDF - 一款高性能的Python库，用于数据提取、分析、转换等...

云原生 ·

Hugging Face发布FinePDFs：一个由PDF构建的3万亿标记数据集

Hugging Face发布FinePDFs：一个由PDF构建的3万亿标记数据集

InfoQ ·

dots.ocr 是小红书 hi lab 发布的多语言文档解析模型，具备轻量化设计和精准文本提取能力，支持100种语言，能处理模糊扫描件和倾斜快拍，识别效果优于大型模型，适合实时文字识别。

在线教程 | 突破结构化文档依赖，dots.ocr 基于 1.7B 参数实现百种语言 OCR 处理，性能达 SOTA

HyperAI超神经 ·

PDFiumCore 是基于 Google PDFium 引擎的 .NET 库，支持 PDF 渲染、文本提取和页面操作，适用于多平台。可通过 NuGet 安装，具备高质量图像生成和文档元数据提取功能。

PDFiumCore：高效处理 PDF 的 .NET 库

dotNET跨平台 ·

Docnet 是一个轻量级、高性能的跨平台 PDF 处理库，基于 PDFium 引擎，支持 .NET Standard 2.0。它提供 PDF 文档的读取、解析和渲染功能，适用于 Windows、Linux 和 macOS，核心功能包括文本提取、图像渲染和文档操作，适合简单的 PDF 处理项目。

Docnet：轻量高效的 .NET PDF 操作库

dotNET跨平台 ·

PaddleOCRSharp.PDF扩展库高效提取PDF文本，用户可通过简单代码将PDF转换为图像并应用OCR技术，适用于文档数字化和表单识别，支持多语言识别，提升数据处理效率。

PaddleOCRSharp增加PDF识别，让你的代码更高效

dotNET跨平台 ·

使用PyPDF和LangChain构建自定义PDF解析器

使用PyPDF和LangChain构建自定义PDF解析器

KDnuggets ·

利用Textract、Comprehend和Bedrock从图像中提取意义

利用Textract、Comprehend和Bedrock从图像中提取意义

DEV Community ·

DocTextExtractor：一个用于从Word、PDF、Google Docs和Markdown中提取文本的Flutter包

DocTextExtractor：一个用于从Word、PDF、Google Docs和Markdown中提取文本的Flutter包

DEV Community ·

在.NET中无缝解析HTML：通过云REST API提取文本

在.NET中无缝解析HTML：通过云REST API提取文本

DEV Community ·

使用Snowflake ML Jobs进行批量PDF转图像转换及利用Cortex多模态进行文本转录

使用Snowflake ML Jobs进行批量PDF转图像转换及利用Cortex多模态进行文本转录

DEV Community ·

AI应用中的文档加载、解析与清理

AI应用中的文档加载、解析与清理

DEV Community ·

使用FastAPI和React Native构建检索增强生成（RAG）API及前端

使用FastAPI和React Native构建检索增强生成（RAG）API及前端

DEV Community ·

使用“Docling Parse”！

使用“Docling Parse”！

DEV Community ·