选择性场景文本去除

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文重新评估了场景文字识别(STR)的性能,并观察到常见基准的挑战程度较低。作者整理了一个大规模的真实STR数据集Union14M,评估STR在真实场景中的表现。13个模型在有标签图像上的平均准确率只有66.53%,并确定了STR领域的七个难题。作者发现通过自监督预训练利用未标记图像可以提高STR模型的鲁棒性,并取得了最先进的性能。

🎯

关键要点

  • 本文重新评估了场景文字识别(STR)的性能。
  • 常见基准的挑战程度较低,导致性能饱和的趋势。
  • 整理了一个大规模的真实STR数据集Union14M,包括400万张带标签图像和1000万张未标记图像。
  • 13个模型在400万张有标签图像上的平均准确率只有66.53%。
  • 通过分析模型的错误模式,确定了STR领域的七个难题。
  • 构建了一个以挑战为驱动的基准,包括八个独立子集,以促进该领域的发展。
  • 利用自监督预训练可以显著提高STR模型的鲁棒性,并取得最先进的性能。
➡️

继续阅读