FastTextSpotter:一种高效的多语言场景文本检测变换器
原文中文,约2100字,阅读约需5分钟。发表于: 。本研究针对光学字符识别(OCR)中的场景文本识别挑战,提出了一种新颖的FastTextSpotter框架,该框架采用Swin Transformer和Transformer编码-解码架构,通过更快的自注意力单元SAC2提升处理速度并保持准确性。实验表明,FastTextSpotter在检测和识别多语言场景文本方面不仅达到了更高的准确率,还提高了模型的效率,树立了新标杆。
本研究提出了FastTextSpotter框架,结合Swin Transformer和Transformer编码-解码架构,提高OCR中的场景文本识别准确率和处理速度。实验结果显示该框架在多语言场景文本的检测和识别方面表现出色。