小红花·文摘

研究人员开发了FastTCM-CR50骨干模型，利用CLIP模型提升场景文本检测和标记任务的能力。该模型通过实例语言匹配过程增强了图像和文本嵌入之间的协同作用，提高了文本区域的精确度。FastTCM-CR50在性能、推理速度和少样本训练能力方面表现出优势，并在分布之外的数据集上持续提升性能。