本研究提出了一种统一框架RCMSTR,结合关系对比学习与掩码图像建模,解决场景文本识别中的语义先验利用问题。通过将文本元素间的关系重新解释为自监督标签,显著提升了表示学习质量,超越了现有自监督技术的识别性能。
完成下面两步后,将自动完成登录并继续当前操作。