LOCR:基于位置引导的光学字符识别 Transformer
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
介绍了TextOCR系统,可检测和识别任意形状的场景文本。使用PixelM4C模型在TextVQA数据集上取得了最新性能水平。
🎯
关键要点
- 介绍了TextOCR系统,能够检测和识别任意形状的场景文本。
- 系统使用了在TextVQA数据集上收集的900K个文本单词的真实图像。
- 训练的OCR模型PixelM4C在图像上进行场景文本推理。
- PixelM4C在TextVQA数据集上达到了最新的性能水平。
➡️