本研究提出了一种新算法用于场景文本检测,包含文本特征对齐模块和位置感知非极大值抑制模块,提高了文本定位质量。通过实例IoU损失平衡训练,实验显示这些策略有效,并与EAST检测器结合后在多项基准上表现出色。
该论文提出了一种基于端到端文本检测的点定位方法,能够读取任意形状的文本。实验结果表明,该方法在场景文本检测和端到端文本识别任务上超过了现有技术水平。
美团技术团队在CVPR 2024上发表了7篇论文,涵盖了OCR预训练、长尾半监督学习、图像驱动、数字人生成、视听分割和视觉叙事等领域。这些论文的研究成果有助于提高场景文本检测、图像生成和目标检测等任务的性能。
本论文提出了一种统一的场景文本检测和布局分析方法,同时介绍了一个分层场景文本数据集。实验证明该方法在多个基线方法上表现更好,并在多个场景文本检测数据集上取得最先进的结果。
介绍了TextOCR系统,可检测和识别任意形状的场景文本。使用PixelM4C模型在TextVQA数据集上取得了最新性能水平。
本研究提出了一种新算法,用于场景文本检测,通过一组策略提高了文本定位质量,与EAST集成,实现了快速运行和有竞争力的性能。
本研究提出了一种新算法用于场景文本检测,通过一组策略提高文本定位质量。与EAST集成后,在保持快速运行速度的同时,达到了竞争性能。
本研究提出了一种新算法用于场景文本检测,通过一组策略提高文本定位质量,并通过消融研究证明了策略的有效性。与EAST集成后,在保持快速运行速度的同时,达到了竞争性能。
该文介绍了一种使用神经网络2来检测场景文本的新方法,通过字符级别推断文本区域和新的关联表示法来估算字符背景。该方法解决了缺少单独字符级别注释的问题,并在6个基准测试中证明了在字符级文本检测方面的优越性。该方法具有高度的灵活性,适用于检测复杂的场景文本图像。
研究人员开发了FastTCM-CR50骨干模型,利用CLIP模型提升场景文本检测和标记任务的能力。该模型通过实例语言匹配过程增强了图像和文本嵌入之间的协同作用,提高了文本区域的精确度。FastTCM-CR50在性能、推理速度和少样本训练能力方面表现出优势,并在分布之外的数据集上持续提升性能。
完成下面两步后,将自动完成登录并继续当前操作。