小红花·文摘

Spotify正在测试一项功能，可以将有声书与纸质版同步

The Verge ·

NeurIPS 2025丨华中科大等发布OCRBench v2，Gemini获中文榜冠军但分数仅及格

HyperAI超神经 ·

百度在Hugging Face发布PP-OCRv5，光学字符识别基准测试中超越VLMs

InfoQ ·

Chrome的Android应用现在允许用户放大文本而不影响网页外观

The Verge ·

如何使用Tesseract.js在识别的文本周围绘制边界框

DEV Community ·

不起眼的截图可能是优秀AI助手的关键

The Verge ·

Mistral OCR：文档理解与人工智能驱动的光学字符识别的未来

DEV Community ·

本研究提出了一种基于人工智能的计算机视觉系统，用于激光刻印工业铭牌的缺陷检测。该系统结合YOLOv7目标检测和光学字符识别技术，准确率达到91.33%，召回率为100%。此方法可提高质量控制，减少人工检测，提高制造效率。

AI-Driven Multi-Stage Computer Vision System for Defect Detection in Laser-Engraved Industrial Nameplates

BriefGPT - AI 论文速递 ·

如何在C#中使用光学字符识别（OCR）技术准确识别车牌号码和文本，并在Windows窗体中展示识别结果？

DEV Community ·

Nvidia Ingest旨在简化从文档中提取结构化信息的过程

InfoQ ·

NumPro方法通过在视频帧中添加数字标识符，提升了视频大模型的时序定位能力。该方法无需训练，利用光学字符识别技术，准确关联视觉内容与时间线。实验结果表明，NumPro在多个基准测试中超越了现有最佳水平，对模型的通用理解能力影响较小。

AI模仿人类看漫画，视频大模型时序定位能力新SOTA

量子位 ·

本研究提出DriveThru平台，旨在解决印尼地方语言在自然语言处理中的代表性不足。该平台通过光学字符识别技术数字化印刷文档，降低人工成本，提升数据集构建能力，显著提高字符和词汇的准确率，具有广泛的应用潜力。

DriveThru: A Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法TAP-VL，旨在提升视觉-语言模型处理图像中文本信息的能力。通过将光学字符识别（OCR）信息作为独立模态与模型集成，TAP-VL在多个基准测试中显著提高了性能，展示了其在图像理解中的潜力。

Text Layout-Aware Pre-training for Enriched Vision-Language Models

BriefGPT - AI 论文速递 ·

ChromeOS刚刚复制了Windows 11的一个最佳功能

The Verge ·

本文介绍了光学字符识别（OCR）技术在乌尔都语、阿拉伯语和孟加拉语等语言中的应用与发展，提出了新方法和数据集，以提高文本识别的准确性和效率，解决现有技术的不足，推动相关领域的进步。

数字乌尔都文本的单词光学字符识别使用变换自回归序列建模

BriefGPT - AI 论文速递 ·

本文介绍了多种先进的光学字符识别（OCR）技术，包括无OCR的信息提取模型、CLIP优化的物体关系预测、统一的OmniParser模型和通用的UPOCR模型。这些模型在不同任务上实现了最先进的性能，推动了OCR领域的发展。

CREPE: 坐标感知的端到端文档解析器

BriefGPT - AI 论文速递 ·

本研究探讨了将手写文本识别（HTR）集成到多语言光学字符识别（OCR）系统中的挑战，提出了无监督写手适应、基于路径签名的卷积网络和半监督学习的文本图像合成等方法，显著提高了识别性能和效率。研究结果表明，这些方法在多个数据集上表现优异，为未来的HTR应用提供了可行思路。

基于空间环境的自监督学习用于手写文本识别

BriefGPT - AI 论文速递 ·

光学字符识别（OCR）是从图像中提取文字的重要技术。本文全面审查了阿拉伯OCR的应用、方法和挑战，分析了有效技术并指出研究空白，为未来发展提供方向，促进阿拉伯语言OCR系统的进步。

利用可用的光学字符识别引擎增强处理旧的库尔德出版物

BriefGPT - AI 论文速递 ·

本文介绍了Bengali.AI-BRACU-OCR（bbOCR），一种开源的孟加拉语文档光学字符识别系统，能够将文档转化为可搜索的数字格式。该系统在文档布局重建、字符识别和多样化文档类型处理方面表现优异，支持静态和动态手写输入，识别复合字符，提升文本提取和分析效率。

尼泊尔语和孟加拉语的光学文本识别：基于 Transformer 的方法

BriefGPT - AI 论文速递 ·

Cloudflare宣布了两项对其数据丢失预防（DLP）服务的增强：支持光学字符识别（OCR）和预定义源代码检测。通过OCR，客户可以识别和分类图像或扫描文档中的敏感信息。预定义源代码检测允许组织扫描内联流量以查找常见的代码语言，并阻止HTTP请求以防止数据泄漏。这些功能是Cloudflare的一套服务的一部分，帮助保护Web、SaaS和私有应用程序中的数据。

宣布两项备受期待的DLP增强功能：光学字符识别（OCR）和源代码检测

The Cloudflare Blog ·