本文介绍了ICDAR 2019场景文本视觉问答比赛(ST-VQA)的结果和新数据集,包含23038张图像和31791个文本实例答案。比赛设有三个任务,旨在评估文本识别和图像理解能力,推动了视觉问答领域的发展,强调了场景文本在图像理解中的重要性。
本文提出了一种在JPEG压缩领域中实现文本行定位的方法,通过使用改进的CompTLL-UNet网络模型,在ICDAR2017和ICDAR2019的JPEG压缩版本上进行训练和测试,以较低的存储和计算成本实现了最新性能。
完成下面两步后,将自动完成登录并继续当前操作。