UPOCR: Towards a Unified Pixel-Level OCR Interface
原文约100字/词,阅读约需1分钟。发表于: 。提出了一种名为 UPOCR 的简单而有效的通用模型,用于统一的像素级光学字符识别接口,通过图像转化和基于视觉 Transformer 的编码器 - 解码器结构统一了多样的 OCR 任务的范式,并引入可学习的任务提示使解码器具有任务感知性,在三个像素级 OCR 任务上的实验结果显示,该方法可以在一个统一的模型上同时实现三个任务的最先进性能,为未来关于通用 OCR 模型的研究提供了有价值的策略和见解。
UPOCR是一种通用模型,用于统一的像素级光学字符识别接口。该模型通过图像转化和基于视觉Transformer的编码器-解码器结构统一了多样的OCR任务的范式,并引入可学习的任务提示使解码器具有任务感知性。实验结果显示,该方法在三个像素级OCR任务上表现出最先进的性能,为通用OCR模型的研究提供了有价值的策略和见解。