小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
PaddleOCR-VL-1.5发布问鼎双榜,0.9B小钢炮攻克“曲面”文档!

PaddleOCR于2025年推出PaddleOCR-VL-1.5,具备94.5%精度,支持异形框定位,提升文本行和印章识别能力。该模型在复杂场景中表现优异,已开源,用户可通过官网和API使用。新版本优化了推理速度,支持多语种和跨页表格合并,旨在提升文档解析的准确性和效率。

PaddleOCR-VL-1.5发布问鼎双榜,0.9B小钢炮攻克“曲面”文档!

百度大脑
百度大脑 · 2026-01-29T12:16:02Z
百度出招!OCR模型PaddleOCR-VL打破管道与端到端方法局限;面部情感识别数据集Facial Emotion Recognition,赋能 AI 读懂表情

百度推出PaddleOCR-VL模型,结合视觉语言模型,支持109种语言,能够高效识别文本和表格等元素,资源消耗低,适合实际应用。

百度出招!OCR模型PaddleOCR-VL打破管道与端到端方法局限;面部情感识别数据集Facial Emotion Recognition,赋能 AI 读懂表情

HyperAI超神经
HyperAI超神经 · 2025-11-25T06:07:47Z
DeepSeek-OCR——上下文视觉压缩:同等长度下,通过更少的视觉token解决长上下文处理难题

DeepSeek-OCR是一种新型视觉语言模型,利用视觉模态高效压缩文本信息。其架构包括DeepEncoder和解码器,支持多种分辨率,在高压缩比下保持高OCR精度。模型训练使用多样化数据集,提升了文本识别能力。

DeepSeek-OCR——上下文视觉压缩:同等长度下,通过更少的视觉token解决长上下文处理难题

结构之法 算法之道
结构之法 算法之道 · 2025-11-11T15:39:37Z
百度在Hugging Face发布PP-OCRv5,光学字符识别基准测试中超越VLMs

百度在Hugging Face发布了PP-OCRv5,这是一种高效的光学字符识别模型,专注于文本识别,支持多语言,适合边缘部署。尽管对其多语言能力有疑虑,但在手写和印刷文本的基准测试中表现优异。

百度在Hugging Face发布PP-OCRv5,光学字符识别基准测试中超越VLMs

InfoQ
InfoQ · 2025-09-25T17:45:00Z

PaddleOCR 3.2版本发布,英文文本识别精度提升近11%,新增泰语和希腊语支持。全面升级C++本地部署能力,提供高稳定性服务化部署方案,并支持细粒度性能基准测试,帮助用户优化部署。

PaddleOCR 3.2发布,多语种文字识别精度提升,多平台部署能力升级

百度大脑
百度大脑 · 2025-08-21T11:22:40Z

OCRFlux-3B是一个智能文本识别工具包,能够将PDF和图像转换为可检索的Markdown文本,支持复杂表格和公式,保持文本自然顺序,适合研究人员快速提取信息。该工具基于多模态语言模型,开源并可在消费级显卡上运行。

在线教程|消费级显卡也能运行?轻量级模型OCRFlux-3B首次实现复杂文本智能识别

HyperAI超神经
HyperAI超神经 · 2025-07-29T03:45:08Z

PaddleOCR 3.1 更新了多语种文本识别模型,支持37种语言,识别精度提升30%。新增文档翻译工具PP-DocTranslation,支持Markdown、PDF和图片格式翻译,并支持MCP服务器,便于将OCR能力集成到AI应用中。

PaddleOCR 3.1 发布:文心助力30+语种文字识别精度提升30%+,关键能力支持MCP

百度大脑
百度大脑 · 2025-07-04T11:25:45Z

PaddleOCRSharp v5.1升级了底层库,支持多语言和复杂文本识别,提升了识别精度和性能,新增OCR引擎实例和PDF识别功能,优化了多线程和路径加载,适配多种开发语言,广泛应用于各行业。

PaddleOCRSharp v5.1重磅来袭

dotNET跨平台
dotNET跨平台 · 2025-07-03T00:03:06Z
03-鸿蒙OS5-文本识别案例

该案例利用AI视觉服务实现文本识别,步骤包括导入模块、调用摄像头、处理图像、执行识别和构建界面。需设备权限和硬件支持,确保图像格式兼容,识别结果结构化返回。

03-鸿蒙OS5-文本识别案例

DEV Community
DEV Community · 2025-05-30T02:57:18Z

PixPin是一款强大的截图工具,支持自由选择区域、窗口探测、长截图和动图截取,配备丰富的标注工具和文本识别,适合学生、教师和职场人士,提高工作效率。

PixPin – 一款截图/贴图工具

老董日志
老董日志 · 2025-05-18T00:31:27Z

PaddleOCRSharp是一个支持多语言的.NET离线OCR库,具备文本识别、检测和表格识别功能,优化后识别率高,适用于多种Windows和Linux系统,提供免费和付费版本,适合各行业开发。

PaddleOCRSharp常见问题与解决方案

dotNET跨平台
dotNET跨平台 · 2025-05-10T00:04:16Z

本文提出了一种新颖的端到端框架,结合ResNet和视觉变换器,利用可变形卷积等先进技术,显著提升自然图像的文本识别性能。实验结果表明,该框架在多个数据集上表现优异。

End-to-End Text Recognition and Retrieval-Augmented Generation Based on Deformable Optimized Transformer Architecture

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-07T00:00:00Z
如何在Swift中将手写图像转换为文本

本文介绍了如何使用Swift中的Vision框架将手写笔记转换为可编辑文本。首先,配置项目并使用PKCanvasView捕获手写输入,然后将内容转换为CGImage,最后使用VNRecognizeTextRequest进行文本识别。文章还解决了识别准确性低和框架配置等常见问题。

如何在Swift中将手写图像转换为文本

DEV Community
DEV Community · 2025-05-06T16:45:18Z
最佳扫描应用:文件扫描的七大推荐

手机应用如Adobe Scan、Scanner App和Microsoft Lens使文件扫描变得简单,支持文本识别,方便用户随时整理和分享文档,适合学生和职场人士使用。

最佳扫描应用:文件扫描的七大推荐

DEV Community
DEV Community · 2025-04-21T13:30:58Z
164/365 | ¥10M工作挑战 - 4o图像生成

最新的40种图像生成技术显著提升了文本识别能力。尽管日语的准确性不及英语,但经过多次迭代,仍能取得理想效果。这些技术的其他功能也令人印象深刻,已可用于大规模内容创作,改变了传统插图创作方式。

164/365 | ¥10M工作挑战 - 4o图像生成

DEV Community
DEV Community · 2025-03-26T19:44:30Z
我试用了10款免费AI检测工具 | 这是我的评测结果

本文介绍了作者测试的最佳免费AI检测工具,包括QuillBot、Scribbr和CopyLeaks等。测试结果显示,这些工具在识别人工和AI生成文本方面表现良好,尤其是QuillBot和Scribbr,整体准确性较高,尽管存在一些局限性。

我试用了10款免费AI检测工具 | 这是我的评测结果

DEV Community
DEV Community · 2025-03-24T06:29:22Z

本研究提出了一种无训练的轻量级场景文本分割与识别网络,旨在降低现代文本识别系统对大型架构和高训练成本的依赖。该框架通过上下文理解和注意力机制,提高了文本区域的识别效率,并在公共基准测试中表现出与先进系统相当的效果,同时显著减少了资源需求。

A Context-Driven Training-Free Lightweight Network for Scene Text Segmentation and Recognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z
十大AI内容检测工具

随着AI在内容创作中的普及,识别AI生成文本的需求显著增加。本文介绍了十大AI内容检测工具,如AI Detector Writer、Undetectable.ai和ZeroGPT,旨在帮助用户维护内容的真实性。这些工具提供免费和付费版本,适合学生、教育者和内容创作者,以确保原创性和学术诚信。

十大AI内容检测工具

DEV Community
DEV Community · 2025-03-06T08:58:41Z

本文提出了一种新的重参数化垂直注意融合模块(RVAFM),旨在提高手写段落文本识别的效率。该模块在训练时采用多分支结构,推理时转换为单分支,最终在IAM测试集上实现了4.44%的字符错误率和14.37%的单词错误率,同时推理速度也有所提升。

RVAFM: Reparameterized Vertical Attention Fusion Module for Handwritten Paragraph Text Recognition

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z
构建轻量级OCR驱动的收据解析器

ReceiptLogger是一个轻量级应用,利用PaddleOCR处理扫描收据,提取日期、商品和价格等结构化数据。该应用在macOS上运行,支持低资源机器,能够快速准确地识别文本,并将数据上传至Google Sheets,便于管理和存储收据记录。

构建轻量级OCR驱动的收据解析器

DEV Community
DEV Community · 2025-02-27T18:49:38Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码