小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Spotify正在测试一项功能,可以将有声书与纸质版同步

Spotify正在测试一项名为“页面匹配”的新功能,允许用户通过扫描纸质书页来同步有声书和纸质书的进度。该功能利用光学字符识别技术,帮助用户快速找到有声书的对应时间戳。用户需购买有声书并拥有纸质或电子版书籍。虽然尚未正式发布,但该功能有潜力简化听书与阅读之间的切换。

Spotify正在测试一项功能,可以将有声书与纸质版同步

The Verge
The Verge · 2026-01-20T11:20:49Z
NeurIPS 2025丨华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格

光学字符识别(OCR)技术已从简单识别发展到理解文档结构。随着深度学习的进步,OCR能力在多模态模型中逐渐显现,成为智能任务的基础。华中科技大学等推出的OCRBench v2评测基准涵盖23种任务,评估58个主流模型,发现模型普遍存在“偏科”现象,整体表现尚可,但在细粒度任务上得分较低。开源模型逐渐具备竞争力,榜单将定期更新。

NeurIPS 2025丨华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格

HyperAI超神经
HyperAI超神经 · 2025-10-14T03:56:39Z
百度在Hugging Face发布PP-OCRv5,光学字符识别基准测试中超越VLMs

百度在Hugging Face发布了PP-OCRv5,这是一种高效的光学字符识别模型,专注于文本识别,支持多语言,适合边缘部署。尽管对其多语言能力有疑虑,但在手写和印刷文本的基准测试中表现优异。

百度在Hugging Face发布PP-OCRv5,光学字符识别基准测试中超越VLMs

InfoQ
InfoQ · 2025-09-25T17:45:00Z
Chrome的Android应用现在允许用户放大文本而不影响网页外观

谷歌为Android版Chrome推出更新,用户可通过滑块放大文本而不影响网页外观。光学字符识别工具现可自动识别桌面扫描PDF,支持高亮、复制和搜索文本。此外,TalkBack与Gemini的集成得到扩展,用户可询问图像细节。新功能“表达式字幕”实时捕捉声音内容及语气,已在英语国家推出。

Chrome的Android应用现在允许用户放大文本而不影响网页外观

The Verge
The Verge · 2025-05-15T16:00:00Z
如何使用Tesseract.js在识别的文本周围绘制边界框

本文介绍了如何在视频流中使用Tesseract.js进行光学字符识别,并通过绘制边界框突出显示识别的文本。内容包括设置Tesseract.js、捕获视频流、识别文本和绘制边界框的步骤。确保使用最新版本以获取边界框数据,并处理可能出现的错误。

如何使用Tesseract.js在识别的文本周围绘制边界框

DEV Community
DEV Community · 2025-05-11T04:45:21Z
不起眼的截图可能是优秀AI助手的关键

截图作为捕捉数字信息的重要工具,不仅能保存内容,还能传达用户关注点。通过光学字符识别和AI模型,截图能够自动整理和识别信息,帮助用户更好地管理数据。未来,截图有望成为AI助手的输入系统,提升用户体验。

不起眼的截图可能是优秀AI助手的关键

The Verge
The Verge · 2025-04-18T13:30:00Z
Mistral OCR:文档理解与人工智能驱动的光学字符识别的未来

Mistral OCR是一款先进的文档理解和光学字符识别工具,能够高效提取复杂文档中的结构化信息,支持多语言和多模态处理,准确性优于其他主流OCR模型,适用于科学研究、文化保护和企业文档自动化等领域。

Mistral OCR:文档理解与人工智能驱动的光学字符识别的未来

DEV Community
DEV Community · 2025-03-11T04:14:18Z

本研究提出了一种基于人工智能的计算机视觉系统,用于激光刻印工业铭牌的缺陷检测。该系统结合YOLOv7目标检测和光学字符识别技术,准确率达到91.33%,召回率为100%。此方法可提高质量控制,减少人工检测,提高制造效率。

AI-Driven Multi-Stage Computer Vision System for Defect Detection in Laser-Engraved Industrial Nameplates

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z
如何在C#中使用光学字符识别(OCR)技术准确识别车牌号码和文本,并在Windows窗体中展示识别结果?

本文讨论了如何在C#中使用光学字符识别(OCR)技术准确识别车牌号码和文本,并在Windows窗体中展示识别结果。

如何在C#中使用光学字符识别(OCR)技术准确识别车牌号码和文本,并在Windows窗体中展示识别结果?

DEV Community
DEV Community · 2025-01-31T15:49:52Z
Nvidia Ingest旨在简化从文档中提取结构化信息的过程

Nvidia Ingest是一种新微服务,能够处理PDF、Word和PowerPoint文档,提取元数据并以JSON格式返回。它利用光学字符识别提取结构化信息,用户需提供JSON作业描述。该服务可扩展,支持多种处理方法,依赖多个服务和至少两块H100或A100 GPU。

Nvidia Ingest旨在简化从文档中提取结构化信息的过程

InfoQ
InfoQ · 2025-01-22T11:00:00Z

NumPro方法通过在视频帧中添加数字标识符,提升了视频大模型的时序定位能力。该方法无需训练,利用光学字符识别技术,准确关联视觉内容与时间线。实验结果表明,NumPro在多个基准测试中超越了现有最佳水平,对模型的通用理解能力影响较小。

AI模仿人类看漫画,视频大模型时序定位能力新SOTA

量子位
量子位 · 2024-11-23T04:16:15Z

本研究提出DriveThru平台,旨在解决印尼地方语言在自然语言处理中的代表性不足。该平台通过光学字符识别技术数字化印刷文档,降低人工成本,提升数据集构建能力,显著提高字符和词汇的准确率,具有广泛的应用潜力。

DriveThru: A Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究提出了一种新方法TAP-VL,旨在提升视觉-语言模型处理图像中文本信息的能力。通过将光学字符识别(OCR)信息作为独立模态与模型集成,TAP-VL在多个基准测试中显著提高了性能,展示了其在图像理解中的潜力。

Text Layout-Aware Pre-training for Enriched Vision-Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z
ChromeOS刚刚复制了Windows 11的一个最佳功能

谷歌推出的ChromeOS 128更新引入了类似Windows 11的Snap Groups功能,方便用户将应用程序以多种全屏布局进行分组。此外,摄像头应用新增光学字符识别(OCR)功能,支持从图像中提取文本,并支持77种语言。更新还简化了摄像头和麦克风的隐私控制设置,提高了视频通话音质。

ChromeOS刚刚复制了Windows 11的一个最佳功能

The Verge
The Verge · 2024-09-06T10:39:50Z

本文介绍了光学字符识别(OCR)技术在乌尔都语、阿拉伯语和孟加拉语等语言中的应用与发展,提出了新方法和数据集,以提高文本识别的准确性和效率,解决现有技术的不足,推动相关领域的进步。

数字乌尔都文本的单词光学字符识别使用变换自回归序列建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文介绍了多种先进的光学字符识别(OCR)技术,包括无OCR的信息提取模型、CLIP优化的物体关系预测、统一的OmniParser模型和通用的UPOCR模型。这些模型在不同任务上实现了最先进的性能,推动了OCR领域的发展。

CREPE: 坐标感知的端到端文档解析器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-01T00:00:00Z

本研究探讨了将手写文本识别(HTR)集成到多语言光学字符识别(OCR)系统中的挑战,提出了无监督写手适应、基于路径签名的卷积网络和半监督学习的文本图像合成等方法,显著提高了识别性能和效率。研究结果表明,这些方法在多个数据集上表现优异,为未来的HTR应用提供了可行思路。

基于空间环境的自监督学习用于手写文本识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-17T00:00:00Z

光学字符识别(OCR)是从图像中提取文字的重要技术。本文全面审查了阿拉伯OCR的应用、方法和挑战,分析了有效技术并指出研究空白,为未来发展提供方向,促进阿拉伯语言OCR系统的进步。

利用可用的光学字符识别引擎增强处理旧的库尔德出版物

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z

本文介绍了Bengali.AI-BRACU-OCR(bbOCR),一种开源的孟加拉语文档光学字符识别系统,能够将文档转化为可搜索的数字格式。该系统在文档布局重建、字符识别和多样化文档类型处理方面表现优异,支持静态和动态手写输入,识别复合字符,提升文本提取和分析效率。

尼泊尔语和孟加拉语的光学文本识别:基于 Transformer 的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

Cloudflare宣布了两项对其数据丢失预防(DLP)服务的增强:支持光学字符识别(OCR)和预定义源代码检测。通过OCR,客户可以识别和分类图像或扫描文档中的敏感信息。预定义源代码检测允许组织扫描内联流量以查找常见的代码语言,并阻止HTTP请求以防止数据泄漏。这些功能是Cloudflare的一套服务的一部分,帮助保护Web、SaaS和私有应用程序中的数据。

宣布两项备受期待的DLP增强功能:光学字符识别(OCR)和源代码检测

The Cloudflare Blog
The Cloudflare Blog · 2024-03-05T14:00:27Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码