小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
.NET Core + Semantic Kernel:用AI将PDF文档结构化为JSON的终极方案

在数字化时代,PDF文档常被视为“数据孤岛”。本文探讨如何通过.NET Core和Microsoft Semantic Kernel将PDF转换为结构化JSON,涵盖PDF文本提取、AI服务集成及JSON输出生成,适用于财务、HR和法律等领域,实现数据自动化与分析。

.NET Core + Semantic Kernel:用AI将PDF文档结构化为JSON的终极方案

dotNET跨平台
dotNET跨平台 · 2026-03-02T00:02:23Z
超越单一提取器:重新思考HTML到文本提取在大规模语言模型预训练中的应用

本文探讨了在大规模语言模型预训练中,HTML到文本提取的重要性。研究表明,使用多种提取器可以提高数据利用率,增加71%的标记产出,并对下游任务表现产生显著影响。

超越单一提取器:重新思考HTML到文本提取在大规模语言模型预训练中的应用

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-24T00:00:00Z
如何使用Node.js和TypeScript构建自定义PDF文本提取器

本文介绍了如何使用Node.js构建自定义PDF解析器,解决JavaScript开发者在SaaS应用中提取文本的挑战。内容涵盖项目设置、文件上传、文本提取和错误处理等功能,提供灵活性和控制力。

如何使用Node.js和TypeScript构建自定义PDF文本提取器

freeCodeCamp.org
freeCodeCamp.org · 2026-02-12T17:45:05Z
Dify × PaddleOCR:强强联手,深度集成重塑 Agent 工作流智能文档底座

PaddleOCR作为成熟的OCR引擎,提供高效的非结构化文档处理解决方案,已集成至Dify平台,支持多种文档格式的高精度文本提取和结构化输出,帮助企业构建文档驱动型AI应用,简化开发者的集成过程,降低技术门槛。

Dify × PaddleOCR:强强联手,深度集成重塑 Agent 工作流智能文档底座

百度大脑
百度大脑 · 2026-01-16T12:10:58Z
如何在自己的数据上对嵌入模型进行基准测试

选择合适的嵌入模型并不简单,但可以通过定制基准测试来改善。新课程教你如何利用视觉语言模型和大型语言模型进行文本提取和评估,克服Python库的局限性,生成评估问题,创建数据向量表示,并使用ranx库进行基准测试和可视化。

如何在自己的数据上对嵌入模型进行基准测试

freeCodeCamp.org
freeCodeCamp.org · 2026-01-15T15:49:38Z
PyMuPDF - 一款高性能的Python库,用于数据提取、分析、转换等...

PyMuPDF是基于MuPDF引擎的强大Python库,支持多种文档格式(如PDF、XPS),具备高效的文本提取、图像处理和页面操作功能,性能优越,解析速度比同类工具快10倍,适用于文档自动化和数据提取,支持OCR和PDF转换。

PyMuPDF - 一款高性能的Python库,用于数据提取、分析、转换等...

云原生
云原生 · 2025-12-08T07:37:15Z
Hugging Face发布FinePDFs:一个由PDF构建的3万亿标记数据集

Hugging Face发布了FinePDFs,这是最大的公开PDF语料库,包含4.75亿份文档和约3万亿个标记。该数据集利用文本提取和GPU OCR技术,解决了PDF处理的挑战,涵盖多种语言,尤其在法律和学术领域具有潜力,免费供研究使用。

Hugging Face发布FinePDFs:一个由PDF构建的3万亿标记数据集

InfoQ
InfoQ · 2025-09-15T08:55:00Z

dots.ocr 是小红书 hi lab 发布的多语言文档解析模型,具备轻量化设计和精准文本提取能力,支持100种语言,能处理模糊扫描件和倾斜快拍,识别效果优于大型模型,适合实时文字识别。

在线教程 | 突破结构化文档依赖,dots.ocr 基于 1.7B 参数实现百种语言 OCR 处理,性能达 SOTA

HyperAI超神经
HyperAI超神经 · 2025-08-28T05:23:06Z

PDFiumCore 是基于 Google PDFium 引擎的 .NET 库,支持 PDF 渲染、文本提取和页面操作,适用于多平台。可通过 NuGet 安装,具备高质量图像生成和文档元数据提取功能。

PDFiumCore:高效处理 PDF 的 .NET 库

dotNET跨平台
dotNET跨平台 · 2025-06-26T00:02:03Z

Docnet 是一个轻量级、高性能的跨平台 PDF 处理库,基于 PDFium 引擎,支持 .NET Standard 2.0。它提供 PDF 文档的读取、解析和渲染功能,适用于 Windows、Linux 和 macOS,核心功能包括文本提取、图像渲染和文档操作,适合简单的 PDF 处理项目。

Docnet:轻量高效的 .NET PDF 操作库

dotNET跨平台
dotNET跨平台 · 2025-06-18T00:02:11Z

PaddleOCRSharp.PDF扩展库高效提取PDF文本,用户可通过简单代码将PDF转换为图像并应用OCR技术,适用于文档数字化和表单识别,支持多语言识别,提升数据处理效率。

PaddleOCRSharp增加PDF识别,让你的代码更高效

dotNET跨平台
dotNET跨平台 · 2025-06-14T00:10:36Z
使用PyPDF和LangChain构建自定义PDF解析器

PDF文件解析复杂,本文介绍如何构建自定义PDF解析器,提取和清理文本、处理图像元数据、去除重复的页眉和页脚,并提取文档元数据。模块化设计使功能扩展更灵活。

使用PyPDF和LangChain构建自定义PDF解析器

KDnuggets
KDnuggets · 2025-06-12T12:00:20Z
利用Textract、Comprehend和Bedrock从图像中提取意义

本文介绍如何构建一个系统,提取图像或文档中的文本并理解其含义。通过整合AWS的Textract、Comprehend和Bedrock服务,逐步提取文本、分析情感和关键短语,并解读文本。读者将学习如何在SageMaker Notebook上使用Python进行AI支持的数据分析。

利用Textract、Comprehend和Bedrock从图像中提取意义

DEV Community
DEV Community · 2025-05-18T09:24:45Z
DocTextExtractor:一个用于从Word、PDF、Google Docs和Markdown中提取文本的Flutter包

我创建了DocTextExtractor,一个轻量级的开源Dart包,支持从.doc、.docx、.pdf等多种文档格式中提取文本。该工具为NotteChat提供AI聊天功能,用户可通过上传文件或粘贴链接与文档内容互动,旨在简化多格式支持,提升用户体验。

DocTextExtractor:一个用于从Word、PDF、Google Docs和Markdown中提取文本的Flutter包

DEV Community
DEV Community · 2025-05-14T21:06:39Z
在.NET中无缝解析HTML:通过云REST API提取文本

.NET开发者可以使用GroupDocs.Parser Cloud .NET SDK轻松从HTML文件中提取文本,无需第三方库或手动解析。该API支持嵌入标签和文本节点的提取,适用于C#、ASP.NET和VB.NET应用,简化了开发过程,节省开发时间。

在.NET中无缝解析HTML:通过云REST API提取文本

DEV Community
DEV Community · 2025-05-02T11:18:35Z
使用Snowflake ML Jobs进行批量PDF转图像转换及利用Cortex多模态进行文本转录

Snowflake推出ML Jobs服务,支持并行执行Python函数,简化日文文本提取。用户可通过该服务将PDF转换为PNG,并利用Cortex AI进行数据提取,无需外部API。

使用Snowflake ML Jobs进行批量PDF转图像转换及利用Cortex多模态进行文本转录

DEV Community
DEV Community · 2025-04-30T05:47:59Z
AI应用中的文档加载、解析与清理

本文介绍了如何为智能应用加载、解析和清理文档,强调数据清洁的重要性,遵循“垃圾进,垃圾出”的原则。涵盖数据收集、文本提取、元数据提取和网页抓取等技术,旨在将原始文档转化为结构化数据,提高AI应用的准确性和可靠性。

AI应用中的文档加载、解析与清理

DEV Community
DEV Community · 2025-04-24T18:50:55Z
使用FastAPI和React Native构建检索增强生成(RAG)API及前端

本文介绍了如何使用FastAPI构建一个检索增强生成(RAG)系统,前端使用React Native。该系统支持用户查询PDF文档并生成响应,同时提供引用链接以确保信息来源透明。后端负责PDF上传、文本提取和嵌入生成,前端则提供友好的用户界面以显示查询和响应。

使用FastAPI和React Native构建检索增强生成(RAG)API及前端

DEV Community
DEV Community · 2025-03-21T05:47:33Z
使用“Docling Parse”!

Docling Parse是一个简单的Python包,能够从程序化PDF中提取文本、路径和位图图像及其坐标。用户只需安装该包并使用示例代码,即可轻松提取所需内容,适用于PDF转换。

使用“Docling Parse”!

DEV Community
DEV Community · 2025-03-19T17:55:06Z
使用 OpenCV 和 Tesseract-OCR 在 Google Colab 中构建 OCR 应用程序的编码指南

光学字符识别(OCR)技术可以将文本图像转换为机器可读的内容。本文介绍如何在Google Colab上使用OpenCV、Tesseract-OCR、NumPy和Matplotlib构建OCR应用,包括图像上传、预处理、文本提取和结果下载,从而有效地将扫描文档或手写内容转化为数字文本。

使用 OpenCV 和 Tesseract-OCR 在 Google Colab 中构建 OCR 应用程序的编码指南

实时互动网
实时互动网 · 2025-03-18T03:25:54Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码