百度在Hugging Face发布了PP-OCRv5,这是一种高效的光学字符识别模型,专注于文本识别,支持多语言,适合边缘部署。尽管对其多语言能力有疑虑,但在手写和印刷文本的基准测试中表现优异。
本研究构建了包含一百万张标注图像的PsOCR数据集,解决了普什图语OCR中的数据稀缺和文字形态问题。结果表明,Gemini模型表现最佳,Qwen-7B在开源模型中领先,为普什图语OCR研究奠定了基础。
Mistral OCR是一款先进的文档理解和光学字符识别工具,能够高效提取复杂文档中的结构化信息,支持多语言和多模态处理,准确性优于其他主流OCR模型,适用于科学研究、文化保护和企业文档自动化等领域。
本研究解决了阿拉伯语光学字符识别(OCR)领域的评估体系不足,提出了KITAB-Bench基准,包含8809个样本,覆盖多达9个主要领域及36个子领域。研究发现,现代视觉语言模型在字符错误率方面较传统OCR方法提高了60%的性能,为阿拉伯文档分析提供了一个系统的评估框架,促进该领域的发展。
本研究针对甲骨文字符识别的专业性和人工限制,提出了调研框架,分析了主要挑战和数据集,并评估了现有方法的有效性。结果表明,结合模式识别与深度学习的自动化方法有望推动该领域的发展。
本文针对历史印刷媒体档案数字化过程中光学字符识别(OCR)错误的问题,提出了上下文利用的OCR校正方法(CLOCR-C),利用基于变换器的语言模型改进OCR质量。研究表明,一些语言模型显著降低了错误率,并通过提供社会文化背景提升了校正效果,展示了CLOCR-C在提升现有数字档案质量方面的潜在影响。
本文全面审查了阿拉伯OCR的应用、方法和挑战,并确定了研究空白和未来发展方向。研究结果为阿拉伯OCR的研究人员和实践者提供了宝贵见解,促进了该领域的进步。
本文强调了使用跨编码器训练数据对CNN进行历史抄写员识别的重要性。实验结果显示,预处理中的屏蔽灰度图像可以提高分类结果的F1分数。AlexNet网络在行级别和页级别上获得了高F1分数。通过实施拒绝选项可以进一步改善CNN输出。使用大规模开源数据集展示了自动复现古文献学决策的能力,为古文献学家提供了获取未标记材料见解的新方法。
本研究探讨了合成数据在后光学字符识别领域的应用,通过实验评估数据量、增强和合成数据生成方法对模型性能的影响。引入了一种新的算法,利用计算机视觉特征检测算法计算字形相似度,用于构建后光学字符识别合成数据。实验证明像ByT5这样的模型可以显著降低字符错误率(CER),而合成数据生成方法在低资源语言方面表现出优势。
本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调,在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法,即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构,使得下游任务的参数微调更加高效。实验结果表明,与类似的参数调整方法相比,我们的模型 DLoRA-TrOCR...
本文全面审查了阿拉伯OCR的应用、方法和挑战,并确定了研究空白和未来发展方向。这为阿拉伯OCR的研究人员和实践者提供了宝贵的见解,促进了该领域的进步。
Cloudflare宣布了两项对其数据丢失预防(DLP)服务的增强:支持光学字符识别(OCR)和预定义源代码检测。通过OCR,客户可以识别和分类图像或扫描文档中的敏感信息。预定义源代码检测允许组织扫描内联流量以查找常见的代码语言,并阻止HTTP请求以防止数据泄漏。这些功能是Cloudflare的一套服务的一部分,帮助保护Web、SaaS和私有应用程序中的数据。
介绍了TextOCR系统,可检测和识别任意形状的场景文本。使用PixelM4C模型在TextVQA数据集上取得了最新性能水平。
封印是由铅制成的小硬币状物品,用绳子系在信封上以封闭信件。本文提出了首次尝试自动读取拜占庭封印图像上的文字的方法。拜占庭封印通常在正面装饰有图标,反面有希腊文字。文字可能包括发件人的姓名、拜占庭贵族的职位和祈祷元素。本研究的贡献是提供了一个深层的、两阶段的字符读取流水线,用于转录拜占庭封印图像。第一个深度卷积神经网络 (CNN) 用于检测封印上的字符...
本文提出了一种基于CNN-BiLSTM系统的英文手写体识别解决方案,通过在公共IAM数据集上评估发现,采用CTC层的CNN-BiLSTM网络能够达到较低的错误率。同时,通过旋转和平移变换的测试时间增强方式,可以提高难识别情况下的识别率。此外,还对IAM数据集上的误差进行了分析,并提供了源代码以促进进一步的研究。
本文全面审查了阿拉伯OCR的应用、方法和挑战,并提出了改进方法。通过关键词搜索和引文审查,确定了阿拉伯OCR领域的研究空白,并为未来的发展指明了方向。该研究为阿拉伯OCR的研究人员和实践者提供了宝贵见解,促进了该领域的进步。
提出了一种新的无监督领域适应方法,通过伪标签和约束增强一致性,使模型更加鲁棒。同时,提出了一种无监督的转移损失,在扫描领域上学习更有辨别力的特征。实验结果表明,该方法在数据集上实现了最先进的结果,并在结构纹理分离网络上性能提升了15.1%。
本文提出了一种用于在线手写字符识别的特征组合,通过空间映射和直方图计算,将点的坐标、笔画方向和动态等特征应用于分类器训练。使用96种印地文字符的在线手写样本进行训练和测试,结果显示该特征组合的分类准确率最高达92.9%。因此,该特征组合具有更好的字符辨别能力。
完成下面两步后,将自动完成登录并继续当前操作。