InternVL2-2B是一个强大的多模态模型,具备20亿参数,能够高效处理文档、图表和场景文本,适用于多种内容理解任务。用户可通过NodeShift云平台轻松部署该模型。
该论文介绍了一个斯瓦希里语自然场景文本检测和识别的数据集,包括976张带标注的场景图像和8284张裁剪后的图像。该数据集旨在为斯瓦希里语开发全面的场景文本数据集,为评估现有模型提供基准,并帮助研究社区开发新的最先进方法。
本文介绍了多种场景文本定位和识别的神经网络模型,如 Mask TextSpotter 和 Text Perceptron,展示了它们在多个数据集上的优异性能。这些模型通过实例分割、注意力机制和变形鲁棒性等技术,显著提升了文本识别的准确性和效率。
本文提出了一种新方法,利用神经网络在字符级别检测场景文本,解决了字符级注释不足的问题。该方法在多个基准测试中表现优越,具有高度灵活性,并探讨了字符感知模型在文本生成中的优势,特别是在视觉拼写任务上的显著提升。
本文介绍了基于扩散模型的文本生成方法,如Diff-Text和CustomText,旨在提高场景文本生成的准确性和自然度。这些方法通过引入局部注意力和字符级指导,在文本图像合成和文本识别方面表现优越,取得了高质量的合成效果,并在多个数据集上展示了优异性能,推动了图像生成模型的发展。
本文提出了一种基于组件感知模块和CG-GAN的字体生成新算法,能够有效分解内容和样式,成功应用于手写字生成和场景文本编辑。在仅有8个参考字符的情况下,该方法生成效果优于现有技术,且无需强的局部学习监管。
本文介绍了ICDAR 2019场景文本视觉问答比赛(ST-VQA)的结果和新数据集,包含23038张图像和31791个文本实例答案。比赛设有三个任务,旨在评估文本识别和图像理解能力,推动了视觉问答领域的发展,强调了场景文本在图像理解中的重要性。
本文介绍了一个新的数据集,用于图像中场景文本实例的交叉检索。提出了几种方法,包括更好的场景文本感知交叉检索方法,并验证了这些方法在场景文本中的效果。提供了数据集和代码。
该研究提出了一种简单而强大的方法来识别场景文本,使用基于全局特征引导注意力的二维卷积神经网络和序列解码器。相比循环神经网络,训练时仅使用单词级别的注释,能够在前向和后向传递中获得1.3x至9.4x不等的加速。在评估的正常和不规则的场景文本基准数据集上实现了最先进或竞争性的识别性能。
完成下面两步后,将自动完成登录并继续当前操作。