小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了ICDAR 2019场景文本视觉问答比赛（ST-VQA）的结果和新数据集，包含23038张图像和31791个文本实例答案。比赛设有三个任务，旨在评估文本识别和图像理解能力，推动了视觉问答领域的发展，强调了场景文本在图像理解中的重要性。

基于 OCR 模态扰动的场景文本视觉问答对抗训练

BriefGPT - AI 论文速递 ·

本文提出了一种在JPEG压缩领域中实现文本行定位的方法，通过使用改进的CompTLL-UNet网络模型，在ICDAR2017和ICDAR2019的JPEG压缩版本上进行训练和测试，以较低的存储和计算成本实现了最新性能。

Compressed Domain Text-Line Localization in Challenging Handwritten Documents using Deep Feature Learning from JPEG Coefficients

BriefGPT - AI 论文速递 ·