小红花·文摘

工业 OCR 实战：C# + Halcon 打造参数可调的印刷字符识别系统

dotNET跨平台 ·

百度在Hugging Face发布PP-OCRv5，光学字符识别基准测试中超越VLMs

InfoQ ·

使用winform开发的工控领域视觉检测

dotNET跨平台 ·

OCVSoftware是一款专为工控领域设计的视觉检测软件，具备字符识别、条码扫描和缺陷检测功能，采用先进的图像处理和机器学习技术，提升生产效率和产品质量，广泛应用于电子制造、物流和汽车制造等行业。

WinForm 框架下的工控领域视觉检测

dotNET跨平台 ·

本研究构建了包含一百万张标注图像的PsOCR数据集，解决了普什图语OCR中的数据稀缺和文字形态问题。结果表明，Gemini模型表现最佳，Qwen-7B在开源模型中领先，为普什图语OCR研究奠定了基础。

PsOCR：低资源普什图语光学字符识别的大型多模态模型评估

BriefGPT - AI 论文速递 ·

Mistral OCR：文档理解与人工智能驱动的光学字符识别的未来

DEV Community ·

本研究解决了阿拉伯语光学字符识别（OCR）领域的评估体系不足，提出了KITAB-Bench基准，包含8809个样本，覆盖多达9个主要领域及36个子领域。研究发现，现代视觉语言模型在字符错误率方面较传统OCR方法提高了60%的性能，为阿拉伯文档分析提供了一个系统的评估框架，促进该领域的发展。

KITAB-Bench：阿拉伯语光学字符识别和文档理解的综合多领域基准

BriefGPT - AI 论文速递 ·

如何在C#中使用光学字符识别（OCR）技术准确识别车牌号码和文本，并在Windows窗体中展示识别结果？

DEV Community ·

查找Unicode（Flow Launcher）

1A23 Studio ·

本研究针对甲骨文字符识别的专业性和人工限制，提出了调研框架，分析了主要挑战和数据集，并评估了现有方法的有效性。结果表明，结合模式识别与深度学习的自动化方法有望推动该领域的发展。

甲骨文字符识别的综合调查：挑战、基准和未来

BriefGPT - AI 论文速递 ·

本文针对历史印刷媒体档案数字化过程中光学字符识别（OCR）错误的问题，提出了上下文利用的OCR校正方法（CLOCR-C），利用基于变换器的语言模型改进OCR质量。研究表明，一些语言模型显著降低了错误率，并通过提供社会文化背景提升了校正效果，展示了CLOCR-C在提升现有数字档案质量方面的潜在影响。

上下文利用的光学字符识别校正与预训练语言模型

BriefGPT - AI 论文速递 ·

该研究项目提出了多种文档解析和字符识别方法，包括基于卷积神经网络的字符分割、DocParser文档结构解析、EffOCR开源OCR包和DocPedia无OCR文档理解模型。这些方法在历史文件处理、信息提取和多语言表单解析中表现优异，显著提高了识别精度和效率。

μgat：通过提供多页上下文来改善单页文档解析

BriefGPT - AI 论文速递 ·

本文介绍了光学字符识别（OCR）技术在乌尔都语、阿拉伯语和孟加拉语等语言中的应用与发展，提出了新方法和数据集，以提高文本识别的准确性和效率，解决现有技术的不足，推动相关领域的进步。

数字乌尔都文本的单词光学字符识别使用变换自回归序列建模

BriefGPT - AI 论文速递 ·

这篇论文介绍了古代文本修复模型的研究进展，包括Pythia模型、一次学习文本定位方法和基于多模态深度学习的古代文字恢复模型。这些方法在字符识别和恢复方面显著提高了准确性，为古文献学提供了新的技术支持，推动了古代文字的数字化和理解。

HABD：侯马联盟书古代手写字符识别数据库

BriefGPT - AI 论文速递 ·

该研究项目提出了多种基于深度学习的古代文献恢复方法，包括字符识别、文本修复和陶器分类。通过卷积神经网络和合成数据，显著提高了对损坏文献的解读准确性，并创建了开源数据库，促进了古文献学研究。

神经纸卷：用于手写纸卷检索的深度注意力嵌入网络

BriefGPT - AI 论文速递 ·

本文介绍了一种无分割OCR系统，结合深度学习、数据增强和合成训练数据，利用大型文本语料库和多种字体生成训练数据。研究探讨了OCR校正方法、手写文本识别及其性能提升，并提出新算法评估合成图像的真实性，推动了OCR技术的发展。

推进后期光学字符识别校正：合成数据的比较研究

BriefGPT - AI 论文速递 ·

本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调，在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法，即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构，使得下游任务的参数微调更加高效。实验结果表明，与类似的参数调整方法相比，我们的模型 DLoRA-TrOCR...

DLoRA-TrOCR：基于 Transformer 的混合文本模式光学字符识别

BriefGPT - AI 论文速递 ·

光学字符识别（OCR）是从图像中提取文字的重要技术。本文全面审查了阿拉伯OCR的应用、方法和挑战，分析了有效技术并指出研究空白，为未来发展提供方向，促进阿拉伯语言OCR系统的进步。

利用可用的光学字符识别引擎增强处理旧的库尔德出版物

BriefGPT - AI 论文速递 ·

Cloudflare宣布了两项对其数据丢失预防（DLP）服务的增强：支持光学字符识别（OCR）和预定义源代码检测。通过OCR，客户可以识别和分类图像或扫描文档中的敏感信息。预定义源代码检测允许组织扫描内联流量以查找常见的代码语言，并阻止HTTP请求以防止数据泄漏。这些功能是Cloudflare的一套服务的一部分，帮助保护Web、SaaS和私有应用程序中的数据。

宣布两项备受期待的DLP增强功能：光学字符识别（OCR）和源代码检测

The Cloudflare Blog ·

介绍了TextOCR系统，可检测和识别任意形状的场景文本。使用PixelM4C模型在TextVQA数据集上取得了最新性能水平。

LOCR：基于位置引导的光学字符识别 Transformer

BriefGPT - AI 论文速递 ·