UPOCR: Towards a Unified Pixel-Level OCR Interface
💡
原文约100字/词,阅读约需1分钟。
📝
内容提要
UPOCR是一种通用模型,用于统一的像素级光学字符识别接口。该模型通过图像转化和基于视觉Transformer的编码器-解码器结构统一了多样的OCR任务的范式,并引入可学习的任务提示使解码器具有任务感知性。实验结果显示,该方法在三个像素级OCR任务上表现出最先进的性能,为通用OCR模型的研究提供了有价值的策略和见解。
🎯
关键要点
- UPOCR是一种通用模型,用于统一的像素级光学字符识别接口。
- 该模型通过图像转化和基于视觉Transformer的编码器-解码器结构统一了多样的OCR任务的范式。
- 引入可学习的任务提示使解码器具有任务感知性。
- 实验结果显示,该方法在三个像素级OCR任务上表现出最先进的性能。
- UPOCR为通用OCR模型的研究提供了有价值的策略和见解。
➡️