小红花·文摘

本文介绍了多种先进的光学字符识别（OCR）技术，包括无OCR的信息提取模型、CLIP优化的物体关系预测、统一的OmniParser模型和通用的UPOCR模型。这些模型在不同任务上实现了最先进的性能，推动了OCR领域的发展。

CREPE: 坐标感知的端到端文档解析器

BriefGPT - AI 论文速递 ·

UPOCR是一种通用模型，用于统一的像素级光学字符识别接口。该模型通过图像转化和基于视觉Transformer的编码器-解码器结构统一了多样的OCR任务的范式，并引入可学习的任务提示使解码器具有任务感知性。实验结果显示，该方法在三个像素级OCR任务上表现出最先进的性能，为通用OCR模型的研究提供了有价值的策略和见解。

UPOCR：面向统一像素级 OCR 接口

BriefGPT - AI 论文速递 ·