本研究提出了一种克洛兹自蒸馏方法,解决了场景文本识别中编码器与解码器扩展不足的问题。通过上下文感知的软预测和伪标签,显著提升了解码器性能,并在11个基准测试中取得了最先进的效果,同时降低了参数和计算成本。
本研究提出了一种新型事件驱动的场景文本识别框架SimC-ESTR,克服了传统RGB摄像头在低光和运动模糊条件下的局限性,并创建了包含9,928个样本的数据集EventSTR,显著提高了识别的准确性和效率。
本研究提出了一种统一框架RCMSTR,结合关系对比学习与掩码图像建模,解决场景文本识别中的语义先验利用问题。通过将文本元素间的关系重新解释为自监督标签,显著提升了表示学习质量,超越了现有自监督技术的识别性能。
本文介绍了一种新型场景文本识别方法,基于卷积特征映射的字符模型,能够有效识别未知单词并避免字符分割困难。研究展示了该方法在复杂文本图像中的优越性能,尤其在手写文本识别和多语言OCR系统中表现突出。
本研究提出了FastTextSpotter框架,结合Swin Transformer和Transformer编码-解码架构,提高OCR中的场景文本识别准确率和处理速度。实验结果显示该框架在多语言场景文本的检测和识别方面表现出色。
本文介绍了多种基于自我监督和弱监督学习的场景文本识别方法,包括图像分割、文本生成和场景图提取等技术。这些方法通过改进模型结构和引入新算法,显著提高了文本识别的精度和效果。
本文探讨了场景文本识别(STR)的新方法,包括无关文本长度的识别技术LISTER、基于LSTM的文档翻译集成和半监督学习方法SemiMTR。这些方法旨在提高OCR质量和识别性能,尤其是在复杂场景中。研究表明,自监督学习和大规模数据集能显著提升模型的鲁棒性和准确性。
本文介绍了一种新型场景文本识别模型E$^2$STR,该模型通过上下文丰富的文本序列进行训练,展现了有效的上下文学习能力。E$^2$STR在字符级别推断文本区域,解决了字符注释不足的问题,并在多个基准测试中表现优越,尤其在复杂场景文本检测上具有高度灵活性。
本文介绍了一种新的公共冰球号码识别数据集,研究了场景文本识别在冰球和足球中的应用。通过关键帧识别模块和时空网络,提升了球衣号码检测的准确率,冰球图像达到91.4%,足球轨迹为87.4%。研究表明,合成数据显著提高了检测性能,提出的方法在体育视频自动识别中具有重要意义。
本文探讨了深度学习和集成模型在越南文本分类、场景文本识别及情感分析中的应用,提出的新框架和方法显著提高了识别性能和准确性,尤其在多语言基准测试中表现优异。
本研究提出了一种简单但强大的方法来识别场景文本,使用全局特征引导注意力的二维卷积神经网络和序列解码器。该方法在训练时只使用单词级别的注释,能够获得较快的加速。在评估中,该方法在正常和不规则的场景文本上表现出最先进或竞争性的识别性能。
本文介绍了一种称为LISTER的长度无关的场景文本识别方法,能够识别长文本并进行长度推断。该方法使用邻居解码器和特征增强模块,在实验中表现出明显的优越性。
完成下面两步后,将自动完成登录并继续当前操作。