LOCR:基于位置引导的光学字符识别 Transformer

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

介绍了TextOCR系统,可检测和识别任意形状的场景文本。使用PixelM4C模型在TextVQA数据集上取得了最新性能水平。

🎯

关键要点

  • 介绍了TextOCR系统,能够检测和识别任意形状的场景文本。
  • 系统使用了在TextVQA数据集上收集的900K个文本单词的真实图像。
  • 训练的OCR模型PixelM4C在图像上进行场景文本推理。
  • PixelM4C在TextVQA数据集上达到了最新的性能水平。
➡️

继续阅读