基于 OCR 模态扰动的场景文本视觉问答对抗训练

原文约300字,阅读约需1分钟。发表于:

本研究提出了一种多模态的对抗训练架构,其中引入了对抗性 OCR 增强(AOE)模块和空间感知自注意力(SASA)机制,旨在改善场景文本视觉问答的性能,并为多模态对抗训练提供了新的方法。

ICDAR 2019场景文本视觉问答比赛的结果和新数据集,包括23038张图像和31791个文本实例答案。比赛共有3个任务,提出了一种新的评估度量标准,用于评估文本识别和图像理解能力。结果分析提供了VQA系统当前的能力洞见。该数据集标志着实现全面图像理解的重要里程碑。

相关推荐 去reddit讨论