小红花·文摘

本研究提出了一种统一框架RCMSTR，结合关系对比学习与掩码图像建模，解决场景文本识别中的语义先验利用问题。通过将文本元素间的关系重新解释为自监督标签，显著提升了表示学习质量，超越了现有自监督技术的识别性能。