本研究提出了一种克洛兹自蒸馏方法,解决了场景文本识别中编码器与解码器扩展不足的问题。通过上下文感知的软预测和伪标签,显著提升了解码器性能,并在11个基准测试中取得了最先进的效果,同时降低了参数和计算成本。
本研究提出了一种新型事件驱动的场景文本识别框架SimC-ESTR,克服了传统RGB摄像头在低光和运动模糊条件下的局限性,并创建了包含9,928个样本的数据集EventSTR,显著提高了识别的准确性和效率。
本研究提出了统一框架RCMSTR,通过自监督标签重新解释文本元素间的关系,结合关系对比学习与掩码图像建模,显著提升了场景文本识别的性能。
本研究提出了FastTextSpotter框架,结合Swin Transformer和Transformer编码-解码架构,提高OCR中的场景文本识别准确率和处理速度。实验结果显示该框架在多语言场景文本的检测和识别方面表现出色。
本研究提出了一种简单但强大的方法来识别场景文本,使用全局特征引导注意力的二维卷积神经网络和序列解码器。该方法在训练时只使用单词级别的注释,能够获得较快的加速。在评估中,该方法在正常和不规则的场景文本上表现出最先进或竞争性的识别性能。
本文介绍了一种称为LISTER的长度无关的场景文本识别方法,能够识别长文本并进行长度推断。该方法使用邻居解码器和特征增强模块,在实验中表现出明显的优越性。
完成下面两步后,将自动完成登录并继续当前操作。