基于子字符串匹配的超长文本识别

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文重新评估了场景文字识别(STR)的性能,并提出了挑战驱动的基准。作者整理了大规模真实STR数据集,发现STR在真实场景中仍面临挑战。通过自监督预训练,作者提高了STR模型的鲁棒性。

🎯

关键要点

  • 本文重新评估了场景文字识别(STR)的性能,提出了挑战驱动的基准。
  • 作者整理了大规模真实STR数据集Union14M,包括400万张带标签图像和1000万张未标记图像。
  • 实验证明13个模型在400万张有标签图像上只能达到66.53%的平均准确率,表明STR在真实场景中仍面临许多挑战。
  • 通过分析模型的错误模式,作者确定了STR领域的七个难题,并构建了一个以挑战为驱动的基准。
  • 作者发现通过自监督预训练利用1000万个未标记图像可以显著提高STR模型的鲁棒性,取得了最先进的性能。
➡️

继续阅读