IPAD:一种基于迭代、并行和扩散的场景文本识别网络

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究提出了一种简单但强大的方法来识别场景文本,使用全局特征引导注意力的二维卷积神经网络和序列解码器。该方法在训练时只使用单词级别的注释,能够获得较快的加速。在评估中,该方法在正常和不规则的场景文本上表现出最先进或竞争性的识别性能。

🎯

关键要点

  • 本研究提出了一种基于全局特征引导注意力的二维卷积神经网络和序列解码器的方法。
  • 该方法用于识别场景文本,训练时仅使用单词级别的注释。
  • 与循环神经网络相比,该方法在前向和后向传递中获得了1.3x至9.4x的加速。
  • 在正常和不规则的场景文本基准数据集上,该方法实现了最先进或竞争性的识别性能。
➡️

继续阅读