本文重新评估了场景文字识别(STR)的性能,并提出了一个大规模的真实STR数据集Union14M。实验证明STR在真实场景中仍面临许多挑战。作者通过分析模型的错误模式确定了STR领域的七个难题,并构建了一个以挑战为驱动的基准。作者发现自监督预训练可以显著提高STR模型在真实场景中的鲁棒性。
本文重新评估了场景文字识别(STR)的性能,并提出了挑战驱动的基准。作者整理了大规模真实STR数据集,发现STR在真实场景中仍面临挑战。通过自监督预训练,作者提高了STR模型的鲁棒性。
本文重新评估了场景文字识别(STR)的性能,并观察到常见基准的挑战程度较低。作者整理了一个大规模的真实STR数据集Union14M,评估STR在真实场景中的表现。13个模型在有标签图像上的平均准确率只有66.53%,并确定了STR领域的七个难题。作者发现通过自监督预训练利用未标记图像可以提高STR模型的鲁棒性,并取得了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。