小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Spotify正在测试一项功能,可以将有声书与纸质版同步

Spotify正在测试一项名为“页面匹配”的新功能,允许用户通过扫描纸质书页来同步有声书和纸质书的进度。该功能利用光学字符识别技术,帮助用户快速找到有声书的对应时间戳。用户需购买有声书并拥有纸质或电子版书籍。虽然尚未正式发布,但该功能有潜力简化听书与阅读之间的切换。

Spotify正在测试一项功能,可以将有声书与纸质版同步

The Verge
The Verge · 2026-01-20T11:20:49Z
NeurIPS 2025丨华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格

光学字符识别(OCR)技术已从简单识别发展到理解文档结构。随着深度学习的进步,OCR能力在多模态模型中逐渐显现,成为智能任务的基础。华中科技大学等推出的OCRBench v2评测基准涵盖23种任务,评估58个主流模型,发现模型普遍存在“偏科”现象,整体表现尚可,但在细粒度任务上得分较低。开源模型逐渐具备竞争力,榜单将定期更新。

NeurIPS 2025丨华中科大等发布OCRBench v2,Gemini获中文榜冠军但分数仅及格

HyperAI超神经
HyperAI超神经 · 2025-10-14T03:56:39Z
百度在Hugging Face发布PP-OCRv5,光学字符识别基准测试中超越VLMs

百度在Hugging Face发布了PP-OCRv5,这是一种高效的光学字符识别模型,专注于文本识别,支持多语言,适合边缘部署。尽管对其多语言能力有疑虑,但在手写和印刷文本的基准测试中表现优异。

百度在Hugging Face发布PP-OCRv5,光学字符识别基准测试中超越VLMs

InfoQ
InfoQ · 2025-09-25T17:45:00Z
Chrome的Android应用现在允许用户放大文本而不影响网页外观

谷歌为Android版Chrome推出更新,用户可通过滑块放大文本而不影响网页外观。光学字符识别工具现可自动识别桌面扫描PDF,支持高亮、复制和搜索文本。此外,TalkBack与Gemini的集成得到扩展,用户可询问图像细节。新功能“表达式字幕”实时捕捉声音内容及语气,已在英语国家推出。

Chrome的Android应用现在允许用户放大文本而不影响网页外观

The Verge
The Verge · 2025-05-15T16:00:00Z
如何使用Tesseract.js在识别的文本周围绘制边界框

本文介绍了如何在视频流中使用Tesseract.js进行光学字符识别,并通过绘制边界框突出显示识别的文本。内容包括设置Tesseract.js、捕获视频流、识别文本和绘制边界框的步骤。确保使用最新版本以获取边界框数据,并处理可能出现的错误。

如何使用Tesseract.js在识别的文本周围绘制边界框

DEV Community
DEV Community · 2025-05-11T04:45:21Z
不起眼的截图可能是优秀AI助手的关键

截图作为捕捉数字信息的重要工具,不仅能保存内容,还能传达用户关注点。通过光学字符识别和AI模型,截图能够自动整理和识别信息,帮助用户更好地管理数据。未来,截图有望成为AI助手的输入系统,提升用户体验。

不起眼的截图可能是优秀AI助手的关键

The Verge
The Verge · 2025-04-18T13:30:00Z
Mistral OCR:文档理解与人工智能驱动的光学字符识别的未来

Mistral OCR是一款先进的文档理解和光学字符识别工具,能够高效提取复杂文档中的结构化信息,支持多语言和多模态处理,准确性优于其他主流OCR模型,适用于科学研究、文化保护和企业文档自动化等领域。

Mistral OCR:文档理解与人工智能驱动的光学字符识别的未来

DEV Community
DEV Community · 2025-03-11T04:14:18Z

本研究提出了一种基于人工智能的计算机视觉系统,用于激光刻印工业铭牌的缺陷检测。该系统结合YOLOv7目标检测和光学字符识别技术,准确率达到91.33%,召回率为100%。此方法可提高质量控制,减少人工检测,提高制造效率。

AI-Driven Multi-Stage Computer Vision System for Defect Detection in Laser-Engraved Industrial Nameplates

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z
如何在C#中使用光学字符识别(OCR)技术准确识别车牌号码和文本,并在Windows窗体中展示识别结果?

本文讨论了如何在C#中使用光学字符识别(OCR)技术准确识别车牌号码和文本,并在Windows窗体中展示识别结果。

如何在C#中使用光学字符识别(OCR)技术准确识别车牌号码和文本,并在Windows窗体中展示识别结果?

DEV Community
DEV Community · 2025-01-31T15:49:52Z
Nvidia Ingest旨在简化从文档中提取结构化信息的过程

Nvidia Ingest是一种新微服务,能够处理PDF、Word和PowerPoint文档,提取元数据并以JSON格式返回。它利用光学字符识别提取结构化信息,用户需提供JSON作业描述。该服务可扩展,支持多种处理方法,依赖多个服务和至少两块H100或A100 GPU。

Nvidia Ingest旨在简化从文档中提取结构化信息的过程

InfoQ
InfoQ · 2025-01-22T11:00:00Z

NumPro方法通过在视频帧中添加数字标识符,提升了视频大模型的时序定位能力。该方法无需训练,利用光学字符识别技术,准确关联视觉内容与时间线。实验结果表明,NumPro在多个基准测试中超越了现有最佳水平,对模型的通用理解能力影响较小。

AI模仿人类看漫画,视频大模型时序定位能力新SOTA

量子位
量子位 · 2024-11-23T04:16:15Z

本研究提出DriveThru平台,旨在解决印尼地方语言在自然语言处理中的代表性不足。该平台通过光学字符识别技术数字化印刷文档,降低人工成本,提升数据集构建能力,显著提高字符和词汇的准确率,具有广泛的应用潜力。

DriveThru: A Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

研究结合目标检测和光学字符识别模型,提升多模态大型语言模型的图像理解能力,减少虚构现象。实验显示,该方法在视觉任务中提高了性能,在10个基准测试中有9个超越先进模型,平均提升12.99%。这一进展是多模态理解领域的重要突破,并希望通过代码发布推动多模态对话能力的探索。

通过增强视觉能力来改善多模态大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

研究通过结合目标检测和光学字符识别模型,提升多模态大型语言模型的图像理解能力,减少虚构现象。实验显示,该方法在视觉任务中提高性能,并在10个基准测试中有9个超越先进模型,平均得分提升12.99%。此研究推动了多模态理解领域的发展,并通过发布代码促进细粒度多模态对话能力的应用。

文本字符串中的视觉感知

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

通过融合先进的目标检测和光学字符识别模型,改进后的多模态大型语言模型在细粒度图像理解方面表现出色,性能提升12.99%,标志着多模态理解领域的重大进展。

划分、征服与结合:一种无需训练的高分辨率图像感知框架用于多模态大语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

本文全面审查了阿拉伯OCR的应用、方法和挑战,并确定了研究空白和未来发展方向。研究结果为阿拉伯OCR的研究人员和实践者提供了宝贵见解,促进了该领域的进步。

数字乌尔都文本的单词光学字符识别使用变换自回归序列建模

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-27T00:00:00Z

本研究引入了两个新的真实世界数据集,突出了光学字符识别和计算机视觉系统在极端环境下的不足。通过最先进的模型,在这两个数据集上建立了基准性能,结果显示通用模型表现不佳。经过微调后,模型性能得到了较大提升。然而,仍需要面向特定领域的技术来解决现实世界OCR和人物重新识别中的开放问题。数据来源于PerformancePhoto.co,已在该平台上部署最佳模型。

提升恶劣条件下车辆颜色识别的研究:一个数据集和基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z

本论文介绍了PIXELMOD系统,用于在Twitter上识别可能需要软性调整标签的图片。通过感知哈希、向量数据库和光学字符识别(OCR),PIXELMOD成功识别了具有误导性的图片,测试结果显示误检率为0.99%,漏检率为2.06%。

PIXELMOD:Twitter 上视觉误导信息的软性调控改进

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z

本文全面审查了阿拉伯OCR的应用、方法和挑战,并提出了改进方法,为阿拉伯OCR领域的研究提供了宝贵见解。

Qalam:阿拉伯光学字符和手写识别的多模式语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

通过融合先进的目标检测和光学字符识别模型,研究改善细粒度图像理解能力。实验结果显示,改进后的多模态大型语言模型在多个视觉任务中表现出色,标志着多模态理解领域的重大进展。希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

使用多模态大型语言模型解决组合问题:一个关于旅行推销员问题的案例研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码