小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Spotify正在测试一项功能,可以将有声书与纸质版同步

Spotify正在测试一项名为“页面匹配”的新功能,允许用户通过扫描纸质书页来同步有声书和纸质书的进度。该功能利用光学字符识别技术,帮助用户快速找到有声书的对应时间戳。用户需购买有声书并拥有纸质或电子版书籍。虽然尚未正式发布,但该功能有潜力简化听书与阅读之间的切换。

Spotify正在测试一项功能,可以将有声书与纸质版同步

The Verge
The Verge · 2026-01-20T11:20:49Z
NeurIPS 2025丨华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格

光学字符识别(OCR)技术已从简单识别发展到理解文档结构。随着深度学习的进步,OCR能力在多模态模型中逐渐显现,成为智能任务的基础。华中科技大学等推出的OCRBench v2评测基准涵盖23种任务,评估58个主流模型,发现模型普遍存在“偏科”现象,整体表现尚可,但在细粒度任务上得分较低。开源模型逐渐具备竞争力,榜单将定期更新。

NeurIPS 2025丨华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格

HyperAI超神经
HyperAI超神经 · 2025-10-14T03:56:39Z
百度在Hugging Face发布PP-OCRv5,光学字符识别基准测试中超越VLMs

百度在Hugging Face发布了PP-OCRv5,这是一种高效的光学字符识别模型,专注于文本识别,支持多语言,适合边缘部署。尽管对其多语言能力有疑虑,但在手写和印刷文本的基准测试中表现优异。

百度在Hugging Face发布PP-OCRv5,光学字符识别基准测试中超越VLMs

InfoQ
InfoQ · 2025-09-25T17:45:00Z
Chrome的Android应用现在允许用户放大文本而不影响网页外观

谷歌为Android版Chrome推出更新,用户可通过滑块放大文本而不影响网页外观。光学字符识别工具现可自动识别桌面扫描PDF,支持高亮、复制和搜索文本。此外,TalkBack与Gemini的集成得到扩展,用户可询问图像细节。新功能“表达式字幕”实时捕捉声音内容及语气,已在英语国家推出。

Chrome的Android应用现在允许用户放大文本而不影响网页外观

The Verge
The Verge · 2025-05-15T16:00:00Z
如何使用Tesseract.js在识别的文本周围绘制边界框

本文介绍了如何在视频流中使用Tesseract.js进行光学字符识别,并通过绘制边界框突出显示识别的文本。内容包括设置Tesseract.js、捕获视频流、识别文本和绘制边界框的步骤。确保使用最新版本以获取边界框数据,并处理可能出现的错误。

如何使用Tesseract.js在识别的文本周围绘制边界框

DEV Community
DEV Community · 2025-05-11T04:45:21Z
不起眼的截图可能是优秀AI助手的关键

截图作为捕捉数字信息的重要工具,不仅能保存内容,还能传达用户关注点。通过光学字符识别和AI模型,截图能够自动整理和识别信息,帮助用户更好地管理数据。未来,截图有望成为AI助手的输入系统,提升用户体验。

不起眼的截图可能是优秀AI助手的关键

The Verge
The Verge · 2025-04-18T13:30:00Z
Mistral OCR:文档理解与人工智能驱动的光学字符识别的未来

Mistral OCR是一款先进的文档理解和光学字符识别工具,能够高效提取复杂文档中的结构化信息,支持多语言和多模态处理,准确性优于其他主流OCR模型,适用于科学研究、文化保护和企业文档自动化等领域。

Mistral OCR:文档理解与人工智能驱动的光学字符识别的未来

DEV Community
DEV Community · 2025-03-11T04:14:18Z

本研究提出了一种基于人工智能的计算机视觉系统,用于激光刻印工业铭牌的缺陷检测。该系统结合YOLOv7目标检测和光学字符识别技术,准确率达到91.33%,召回率为100%。此方法可提高质量控制,减少人工检测,提高制造效率。

AI-Driven Multi-Stage Computer Vision System for Defect Detection in Laser-Engraved Industrial Nameplates

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z
如何在C#中使用光学字符识别(OCR)技术准确识别车牌号码和文本,并在Windows窗体中展示识别结果?

本文讨论了如何在C#中使用光学字符识别(OCR)技术准确识别车牌号码和文本,并在Windows窗体中展示识别结果。

如何在C#中使用光学字符识别(OCR)技术准确识别车牌号码和文本,并在Windows窗体中展示识别结果?

DEV Community
DEV Community · 2025-01-31T15:49:52Z
Nvidia Ingest旨在简化从文档中提取结构化信息的过程

Nvidia Ingest是一种新微服务,能够处理PDF、Word和PowerPoint文档,提取元数据并以JSON格式返回。它利用光学字符识别提取结构化信息,用户需提供JSON作业描述。该服务可扩展,支持多种处理方法,依赖多个服务和至少两块H100或A100 GPU。

Nvidia Ingest旨在简化从文档中提取结构化信息的过程

InfoQ
InfoQ · 2025-01-22T11:00:00Z

NumPro方法通过在视频帧中添加数字标识符,提升了视频大模型的时序定位能力。该方法无需训练,利用光学字符识别技术,准确关联视觉内容与时间线。实验结果表明,NumPro在多个基准测试中超越了现有最佳水平,对模型的通用理解能力影响较小。

AI模仿人类看漫画,视频大模型时序定位能力新SOTA

量子位
量子位 · 2024-11-23T04:16:15Z

本研究提出DriveThru平台,旨在解决印尼地方语言在自然语言处理中的代表性不足。该平台通过光学字符识别技术数字化印刷文档,降低人工成本,提升数据集构建能力,显著提高字符和词汇的准确率,具有广泛的应用潜力。

DriveThru: A Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究提出了一种新方法TAP-VL,旨在提升视觉-语言模型处理图像中文本信息的能力。通过将光学字符识别(OCR)信息作为独立模态与模型集成,TAP-VL在多个基准测试中显著提高了性能,展示了其在图像理解中的潜力。

Text Layout-Aware Pre-training for Enriched Vision-Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z
ChromeOS刚刚复制了Windows 11的一个最佳功能

谷歌推出的ChromeOS 128更新引入了类似Windows 11的Snap Groups功能,方便用户将应用程序以多种全屏布局进行分组。此外,摄像头应用新增光学字符识别(OCR)功能,支持从图像中提取文本,并支持77种语言。更新还简化了摄像头和麦克风的隐私控制设置,提高了视频通话音质。

ChromeOS刚刚复制了Windows 11的一个最佳功能

The Verge
The Verge · 2024-09-06T10:39:50Z

本文介绍了光学字符识别(OCR)技术在乌尔都语、阿拉伯语和孟加拉语等语言中的应用与发展,提出了新方法和数据集,以提高文本识别的准确性和效率,解决现有技术的不足,推动相关领域的进步。

数字乌尔都文本的单词光学字符识别使用变换自回归序列建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本文介绍了多种先进的光学字符识别(OCR)技术,包括无OCR的信息提取模型、CLIP优化的物体关系预测、统一的OmniParser模型和通用的UPOCR模型。这些模型在不同任务上实现了最先进的性能,推动了OCR领域的发展。

CREPE: 坐标感知的端到端文档解析器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-01T00:00:00Z

本研究探讨了将手写文本识别(HTR)集成到多语言光学字符识别(OCR)系统中的挑战,提出了无监督写手适应、基于路径签名的卷积网络和半监督学习的文本图像合成等方法,显著提高了识别性能和效率。研究结果表明,这些方法在多个数据集上表现优异,为未来的HTR应用提供了可行思路。

基于空间环境的自监督学习用于手写文本识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-17T00:00:00Z

光学字符识别(OCR)是从图像中提取文字的重要技术。本文全面审查了阿拉伯OCR的应用、方法和挑战,分析了有效技术并指出研究空白,为未来发展提供方向,促进阿拉伯语言OCR系统的进步。

利用可用的光学字符识别引擎增强处理旧的库尔德出版物

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z

本文介绍了Bengali.AI-BRACU-OCR(bbOCR),一种开源的孟加拉语文档光学字符识别系统,能够将文档转化为可搜索的数字格式。该系统在文档布局重建、字符识别和多样化文档类型处理方面表现优异,支持静态和动态手写输入,识别复合字符,提升文本提取和分析效率。

尼泊尔语和孟加拉语的光学文本识别:基于 Transformer 的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

Cloudflare宣布了两项对其数据丢失预防(DLP)服务的增强:支持光学字符识别(OCR)和预定义源代码检测。通过OCR,客户可以识别和分类图像或扫描文档中的敏感信息。预定义源代码检测允许组织扫描内联流量以查找常见的代码语言,并阻止HTTP请求以防止数据泄漏。这些功能是Cloudflare的一套服务的一部分,帮助保护Web、SaaS和私有应用程序中的数据。

宣布两项备受期待的DLP增强功能:光学字符识别(OCR)和源代码检测

The Cloudflare Blog
The Cloudflare Blog · 2024-03-05T14:00:27Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码