将 CLIP 模型转变为场景文本识别器
原文中文,约700字,阅读约需2分钟。发表于: 。通过使用大规模对比语言 - 图像预训练(CLIP)模型,我们将其转化为强大的骨干模型 FastTCM-CR50,从而提升场景文本检测和标记任务的能力。FastTCM-CR50 利用了 CLIP 中的视觉提示学习和交叉注意机制,提取图像和基于文本的先验知识。通过使用预定义和可学习的提示,FastTCM-CR50...
研究人员开发了FastTCM-CR50骨干模型,利用CLIP模型提升场景文本检测和标记任务的能力。该模型通过实例语言匹配过程增强了图像和文本嵌入之间的协同作用,提高了文本区域的精确度。FastTCM-CR50在性能、推理速度和少样本训练能力方面表现出优势,并在分布之外的数据集上持续提升性能。