小红花·文摘

本文重新评估了场景文字识别（STR）的性能，并观察到常见基准的挑战程度较低。作者整理了一个大规模的真实STR数据集Union14M，评估STR在真实场景中的表现。13个模型在有标签图像上的平均准确率只有66.53％，并确定了STR领域的七个难题。作者发现通过自监督预训练利用未标记图像可以提高STR模型的鲁棒性，并取得了最先进的性能。