文档布局分析的视觉网格变换器

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究介绍了METER框架,一种多模态端到端Transformer框架,通过设计和预训练基于Transformer的视听模型,取得了77.64%的准确率,超过了以前的最优模型,最佳情况下可达到80.54%的准确率。

🎯

关键要点

  • 该研究介绍了METER框架,一种多模态端到端Transformer框架。
  • METER框架通过设计和预训练基于Transformer的视听模型,取得了77.64%的准确率。
  • METER框架的准确率超过了以前的最优模型。
  • 在最佳情况下,METER框架的准确率可达到80.54%。
  • 研究通过对模型设计进行分解,使用预训练的增强模型,提升了性能。
➡️

继续阅读