小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
如何使用Python自动化PDF数据提取

PDF仍是商业中常用的文档格式,但数据提取困难且易出错。Python成为自动化PDF数据提取的有效工具,开发者可以利用其库提取文本和表格,并处理扫描文档。文章探讨了如何使用Python进行PDF数据提取,包括环境设置、文本和表格提取、OCR处理等,强调了自动化在提高效率和减少错误方面的重要性。

如何使用Python自动化PDF数据提取

freeCodeCamp.org
freeCodeCamp.org · 2026-06-03T16:25:14Z
在线教程丨英伟达开源LocateAnything,3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能

NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B,拥有30亿参数,支持多种视觉定位任务。其核心创新为并行框解码(PBD),显著提升了定位精度和解码速度,尤其在复杂场景下表现优异,推动了视觉定位技术的发展。

在线教程丨英伟达开源LocateAnything,3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能

HyperAI超神经
HyperAI超神经 · 2026-06-02T09:55:40Z

屏忆是一款开源的本地屏幕记忆工具,自动记录手机屏幕内容,利用OCR和索引功能帮助用户找回遗忘的信息。它支持按时间回看、生成回放和每日总结,强调本地保存和隐私控制,用户可选择记录内容并支持数据导出和清理。未来,屏忆计划扩展到更多平台,提供更完整的记录和回顾体验。

屏忆:这款开源工具,把过目就忘的日常变成「上下文」

少数派
少数派 · 2026-05-27T07:10:53Z
如何构建一个基于人工智能的医疗影像去标识化管道以支持临床研究

医疗影像正在改变医疗保健,研究人员利用深度学习模型检测肺炎、评估心脏功能和识别肿瘤。保护患者隐私是关键挑战。本文介绍了构建去标识化管道的方法,使用光学字符识别(OCR)和命名实体识别(NER)技术,自动去除医疗影像中的受保护健康信息(PHI),确保数据在临床研究和AI模型训练中的安全性。

如何构建一个基于人工智能的医疗影像去标识化管道以支持临床研究

freeCodeCamp.org
freeCodeCamp.org · 2026-05-22T15:06:15Z
CVHub x PaddleOCR:X-AnyLabeling 升级 OCR 实战工作流,服务开发者数据闭环

PaddleOCR与CVHub合作推出X-AnyLabeling工具,支持PaddleOCR-VL-1.5模型,提升复杂文档的解析、复核和结构化导出能力。该工具简化了OCR数据准备流程,支持多任务解析,降低人工标注成本,助力开发者高效完成文档处理和数据沉淀。X-AnyLabeling被指定为PaddleOCR全球衍生模型挑战赛的官方标注平台。

CVHub x PaddleOCR:X-AnyLabeling 升级 OCR 实战工作流,服务开发者数据闭环

百度大脑
百度大脑 · 2026-05-13T11:54:39Z
在线教程丨单卡即可爆改,面壁智能等开源MiniCPM-V-4.6,1.3B端侧模型支持图像理解/视频理解/OCR/多轮多模态对话

近年来,AI行业认识到并非所有场景都需使用大型模型。高昂的推理成本和数据隐私风险使得小型模型在实际应用中更具效率。新开源的MiniCPM-V 4.6模型仅有1.3B参数,支持多种任务,适合在端侧设备上运行,推动AI应用落地。

在线教程丨单卡即可爆改,面壁智能等开源MiniCPM-V-4.6,1.3B端侧模型支持图像理解/视频理解/OCR/多轮多模态对话

HyperAI超神经
HyperAI超神经 · 2026-05-13T10:50:55Z
C# 结合 llama.cpp 实现 PaddleOCR-VL-1.5:本地 OCR 客户端开发全攻略

本文介绍了如何使用C# WinForm结合PaddleOCR-VL-1.5模型,构建一个本地离线的OCR客户端。该客户端支持多种识别任务,包括文字、表格和公式,架构简单,服务端与客户端解耦,便于升级和维护。通过RestSharp实现HTTP请求,确保识别过程的安全与高效。

C# 结合 llama.cpp 实现 PaddleOCR-VL-1.5:本地 OCR 客户端开发全攻略

dotNET跨平台
dotNET跨平台 · 2026-05-12T00:01:01Z
DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)

DeepSeek的识图模式在灰度测试中表现优异,支持快速识别和推理。非思考模式下速度快但准确性需提升;思考模式下推理能力强但耗时较长。该模式有效处理OCR和网页图片,显示出独立训练的潜力。整体来看,DeepSeek的多模态能力发展迅速,仍有改进空间。

DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)

量子位
量子位 · 2026-04-30T06:52:23Z
畅聊Agent OS、CLI美学、OCR破局,为车展装上AI引擎

4月26日,百度飞桨主办的“前沿AI技术交流会”在车展上成功举办,吸引了众多开发者。会议聚焦AI技术演进与实战应用,讨论了智能体向Agent OS的转变、命令行美学的优势及企业OCR的最新进展,促进了AI技术的深入交流与合作。

畅聊Agent OS、CLI美学、OCR破局,为车展装上AI引擎

百度大脑
百度大脑 · 2026-04-28T11:33:18Z

文章介绍了多种免费的GPU版OCR识别库和服务,适用于Windows和Linux平台,包括OnnxRuntime DML和PaddleOCR v5等,支持多种显卡,便于用户进行文字识别。

Windows、Linux免费CPU、GPU版OCR推理资源整理汇总

dotNET跨平台
dotNET跨平台 · 2026-04-24T00:01:30Z
PaddleOCR 3.5 发布:Web 端直用、文档一键转 Markdown,生态交互新体验

PaddleOCR 3.5正式发布,新增PaddleOCR.js,支持浏览器端OCR功能,简化开发者体验。可将文档解析结果导出为Word和Markdown格式,并支持多种文档类型。此版本整合了Transformers推理引擎,提升了OCR能力的灵活性和兼容性,旨在降低AI应用开发门槛,推动OCR技术发展。

PaddleOCR 3.5 发布:Web 端直用、文档一键转 Markdown,生态交互新体验

百度大脑
百度大脑 · 2026-04-21T12:39:26Z
鹰迅OCR:几十种功能集成工具,证件、发票、快递单、扫描件一键提取,省掉手动录入

鹰迅OCR是一款智能文字识别工具,支持批量处理,识别精准且免费。它提供文档处理、证件识别、车辆物流识别和财务票据识别等功能,能够有效提取信息到Excel,简化办公流程,提升工作效率。

鹰迅OCR:几十种功能集成工具,证件、发票、快递单、扫描件一键提取,省掉手动录入

小众软件
小众软件 · 2026-04-21T09:07:09Z
技术深度揭秘|云知声U1-OCR架构升级 + API 开放,重构 OCR 3.0 时代

云知声发布了工业级文档智能基础大模型Unisound U1-OCR,标志着OCR 3.0时代的到来。该模型具备高效部署和强适配能力,支持金融、医疗等行业的复杂文档解析,提升了文档结构理解和阅读顺序恢复能力,解决了传统OCR的局限性,推动行业数字化转型。

技术深度揭秘|云知声U1-OCR架构升级 + API 开放,重构 OCR 3.0 时代

量子位
量子位 · 2026-04-21T04:50:16Z

谷歌推出了适用于Windows 10/11的桌面应用Google App,用户可以通过快捷搜索框与Gemini AI对话。该应用支持OCR识别图片内容、上传文件处理,并能访问谷歌云端硬盘中的文件。用户还可以使用快捷键快速获取AI答案,并利用内置的Google Lens和屏幕共享功能提问。

谷歌推出桌面应用帮助用户快速使用Gemini AI提问/图像识别/查找内容

蓝点网
蓝点网 · 2026-04-15T08:52:34Z
DeploySharp 使用 ONNX Runtime 部署 PP-OCR v4/v5 教程

本文介绍了如何使用 DeploySharp 框架和 ONNX Runtime 部署 PP-OCR v4/v5 模型,涵盖 CPU、CUDA、DML 和 TensorRT 等多种推理方式。文章详细说明了环境准备、模型配置、推理实现及性能对比,并提供代码示例和优化建议,以帮助开发者高效进行 OCR 部署。

DeploySharp 使用 ONNX Runtime 部署 PP-OCR v4/v5 教程

dotNET跨平台
dotNET跨平台 · 2026-04-13T23:57:57Z
体验下微软开源的Markdown转换工具Markitdown

微软开源的Markdown转换工具Markitdown可以将多种文件格式转换为Markdown,便于大模型分析。该工具支持命令行操作和OCR插件,能够提取嵌入图像中的文本,但在表格和非文本内容的转换效果有限。

体验下微软开源的Markdown转换工具Markitdown

Nicksxs's Blog
Nicksxs's Blog · 2026-04-05T14:11:22Z
告别 PDF 乱码错版,DeepSeek OCR 驱动,手机就能用:将扫描版 PDF 转换为 EPUB 电子书

小墨阅读器基于DeepSeek-OCR技术,解决手机PDF阅读难题,支持PDF转换为EPUB和Markdown,精准识别复杂内容,提供翻译和语音功能,适用于iOS和桌面端。

告别 PDF 乱码错版,DeepSeek OCR 驱动,手机就能用:将扫描版 PDF 转换为 EPUB 电子书

小众软件
小众软件 · 2026-04-02T11:36:09Z
Translumo:一款实时屏幕翻译工具,支持多语言和多OCR引擎

Translumo是一款实时屏幕翻译工具,支持多语言和高精度OCR,适用于游戏和视频等内容的快速翻译。它开源、完全本地化,使用简便,适合多种应用场景。

Translumo:一款实时屏幕翻译工具,支持多语言和多OCR引擎

极道
极道 · 2026-04-01T12:37:00Z
在线教程丨华中科大与小红书 hi lab开源dots.mocr,SOTA级OCR模型完美还原文档结构,图形也能转 SVG

华中科技大学与小红书hi lab联合开源了dots.mocr,旨在解决传统OCR在复杂文档解析中的不足。该工具能够将文字、图表等视觉元素解析为结构化数据,并转换为可编辑的SVG代码,提升文档理解和自动化处理能力。HyperAI官网已上线相关教程,用户可在线体验。

在线教程丨华中科大与小红书 hi lab开源dots.mocr,SOTA级OCR模型完美还原文档结构,图形也能转 SVG

HyperAI超神经
HyperAI超神经 · 2026-04-01T11:28:09Z
全球OCR新王来自中国开源!GitHub狂揽73300+Star

百度的PaddleOCR在GitHub上获得73300+星标,超越谷歌的Tesseract OCR,成为全球OCR项目的领军者。这标志着中国在OCR领域的首次领先。PaddleOCR依托深度学习和文心大模型,实现了快速增长,用户遍及160个国家,支持110种语言,推动了OCR技术的广泛应用。

全球OCR新王来自中国开源!GitHub狂揽73300+Star

量子位
量子位 · 2026-03-30T14:15:44Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码