小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
沉浸式翻译 immersive translate
Mistral发布OCR 3,提升手写和结构化文档的识别准确性

Mistral发布了Mistral OCR 3,显著提升了对手写、表单和复杂表格文档的识别准确性,整体胜率达到74%。该模型能够提取文本和嵌入图像,输出为Markdown格式,适合结构化数据需求,用户反馈速度快,语言覆盖广,适用于多种业务场景。

Mistral发布OCR 3,提升手写和结构化文档的识别准确性

InfoQ
InfoQ · 2026-01-15T09:00:00Z

Snipaste 现已支持 OCR 功能,能够识别图片中的文字。通过集成 Tesseract 和微信 OCR,用户可以实现高效的文字识别。开发中使用 Golang 简化操作,用户需下载并配置相关文件,识别速度快且准确。

让 Snipaste 使用微信 OCR

闪星空间
闪星空间 · 2026-01-12T14:33:00Z

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

机器之心
机器之心 · 2026-01-10T12:56:25Z

华为推出开源的7B多模态模型openPangu-VL-7B,具备卓越的视觉定位和OCR能力,适用于多种终端场景。该模型在图像处理和文档理解任务中表现优异,推理性能高效,支持实时应用,创新设计提升了训练效果,为开发者提供实用技术参考,丰富了昇腾生态。

华为开源7B多模态模型,视觉定位和OCR能力出色,你的昇腾端侧“新甜点”来了

量子位
量子位 · 2026-01-05T05:05:39Z
七大开源OCR模型

本文介绍了七种可本地运行的光学字符识别(OCR)模型,如olmOCR-2、PaddleOCR v5和OCRFlux 3B,能够高效将文档、表格和图形转换为准确的Markdown文本,支持多语言、跨页合并和视频处理,适用于多种文档解析需求。

七大开源OCR模型

KDnuggets
KDnuggets · 2025-12-24T13:00:41Z
PDF Craft – 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换

PDF Craft 是一款基于 DeepSeek OCR 的开源软件,专注于将扫描版 PDF 转换为 Markdown 和 ePUB 格式,能够准确提取文本、公式和图表,提升可读性。用户可选择自托管或在线演示,但需满足一定的硬件要求。

PDF Craft – 基于 DeepSeek OCR,实现扫描版 PDF 的高保真电子书转换

小众软件
小众软件 · 2025-12-18T12:21:18Z

腾讯发布的HunyuanOCR模型是一款轻量级开源OCR视觉语言模型,具备高效的文本检测、识别和复杂文档解析能力。该模型采用端到端架构,结合原生ViT和轻量LLM,克服了传统模型的局限性,已在多个平台开源,推动科研与工业应用。

混元OCR模型核心技术揭秘:统一框架、真端到端

量子位
量子位 · 2025-11-30T02:36:16Z

本文介绍了DeepSeek团队开发的DeepSeek-OCR模型,这是一种创新的视觉-语言模型,专注于通过视觉模态实现高效的文本信息压缩。该模型采用DeepEncoder架构,结合窗口注意力和全局注意力机制,在高分辨率输入下保持低内存消耗和少量视觉token。实验显示,在9-10倍文本压缩下达到96%+的OCR精度,在20倍压缩下约60%精度。模型支持多种分辨率输入,并具备解析图表、化学式等...

DeepSeek-OCR——上下文视觉压缩:同等长度下,通过更少的视觉token解决长上下文处理难题

结构之法 算法之道
结构之法 算法之道 · 2025-11-11T15:39:37Z

Deepseek-OCR 利用视觉模态作为文本信息的有效压缩媒介,从而实现了远高于传统文本表示的压缩比。「DeepSeek-OCR:「视觉压缩」替代传统字符识别」现已上线 HyperAI超神经官网(hyper.ai)的「教程」板块,快来一键部署体验!

在线教程丨Deepseek-OCR以极少视觉token数在端到端模型中实现SOTA

HyperAI超神经
HyperAI超神经 · 2025-11-11T04:37:18Z
EP187:为什么DeepSeek-OCR如此重要?

在发布前未测试80%以上的用户流程时,容易出现漏洞。QA Wolf的AI解决方案能迅速提供高效的测试覆盖,缩短QA周期至几分钟,提高测试效率,减少生产中的漏洞。

EP187:为什么DeepSeek-OCR如此重要?

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-11-01T15:30:28Z
关于DeepSeek-OCR和PaddleOCR对数学类书籍识别的对比

对《数学奥林匹克小丛书》进行OCR测试,DeepSeek-OCR效果优于PaddleOCR。尽管DeepSeek-OCR在本地运行速度较慢,但在Kaggle上表现更佳。两者在识别多行公式和特殊符号时均存在问题,PaddleOCR的错误率较高。总体而言,DeepSeek-OCR的结果更易于修正。

关于DeepSeek-OCR和PaddleOCR对数学类书籍识别的对比

如鱼饮水
如鱼饮水 · 2025-10-30T09:06:26Z
二维码识别OCR接口——让信息一键识别,轻松接入智能识别能力!

二维码识别OCR接口是一种智能API服务,能够快速提取图像中的二维码内容,支持多种格式和批量识别,适用于物流和电子发票等场景,提高数据提取效率。

二维码识别OCR接口——让信息一键识别,轻松接入智能识别能力!

APISpace
APISpace · 2025-10-28T02:41:54Z

10.20-10.24 AI 论文推荐

AI 论文周报丨OCR 新模型/多模态大语言模型/下一代 DNA 测序……一文了解多领域最新进展

HyperAI超神经
HyperAI超神经 · 2025-10-27T08:05:07Z
白嫖Kaggle平台部署DeepSeek-OCR

在Kaggle上部署DeepSeek-OCR后端,使用ngrok进行内网穿透。利用Kaggle的免费GPU安装必要包并配置模型,运行时需使用nest-asyncio支持嵌套调用,最后通过ngrok地址在本地前端访问。

白嫖Kaggle平台部署DeepSeek-OCR

如鱼饮水
如鱼饮水 · 2025-10-26T01:04:17Z
尝试使用DeepSeek-OCR

DeepSeek-OCR与Umi-OCR各有优缺点。DeepSeek-OCR在标点识别方面表现更佳,但存在擅自修改内容和段落合并的问题,且处理速度较慢。

尝试使用DeepSeek-OCR

如鱼饮水
如鱼饮水 · 2025-10-24T06:45:34Z
DeepSeek AI发布DeepSeek-OCR:基于视觉的上下文压缩重新定义长文本处理

DeepSeek AI开发了DeepSeek-OCR,一个开源系统,通过光学2D映射压缩长文本,提升大语言模型的处理能力。该系统使用视觉编码,以低于10倍的压缩比实现97%的OCR精度,尤其在处理高分辨率输入和多语言文档时表现优异。其代码和模型权重已在GitHub上公开,鼓励研究者探索。

DeepSeek AI发布DeepSeek-OCR:基于视觉的上下文压缩重新定义长文本处理

InfoQ
InfoQ · 2025-10-22T18:35:00Z

(1)vs....

从“识字”到“懂意”:百度开源的OCR-VL模型重铸文档智能的底层逻辑

dotNET跨平台
dotNET跨平台 · 2025-10-21T00:01:19Z

百度新发布的PaddleOCR-VL模型参数仅0.9B,获得OmniDocBench V1.5全球第一,全面超越文本、公式、表格和阅读顺序四项能力,标志着OCR技术的重大突破,具备强大的行业应用潜力。

全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA

量子位
量子位 · 2025-10-17T09:50:35Z

这段实习经历作为培养体系的关键环节,让同学们深度参与产业级研发项目,实现了从理论认知到实战应用的重要跨越,生动诠释了华中科技大学软件学院“厚基础、强能力、重实践、育创新”的育人理念。“飞桨班”的项目经验和运行机制,百度飞桨将推动人才培养模式在更广范围、更深层次实现落地,进一步打通“课程-科研-实习-就业”各个环节,为国产AI生态持续输送新生力量。“飞桨班”实践不仅收获了实际的技术成果与显著的...

实战淬炼真章!华科大飞桨班学子百度实习,一月攻克OCR、科学计算等硬核产业课题

百度大脑
百度大脑 · 2025-10-10T09:26:18Z

HyperAI超神经的「教程」板块已上线多个 OCR 开源模型教程,多语种文字解析、结构转化、场景文本识别等多种功能均可在线体验,快来试试吧~

6大OCR模型汇总,谷歌/IBM/腾讯/小红书/清华/上交/中科院等重磅开源,识别精度与效率跃升

HyperAI超神经
HyperAI超神经 · 2025-10-10T06:30:04Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码