文档布局分析的视觉网格变换器
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究介绍了METER框架,一种多模态端到端Transformer框架,通过设计和预训练基于Transformer的视听模型,取得了77.64%的准确率,超过了以前的最优模型,最佳情况下可达到80.54%的准确率。
🎯
关键要点
- 该研究介绍了METER框架,一种多模态端到端Transformer框架。
- METER框架通过设计和预训练基于Transformer的视听模型,取得了77.64%的准确率。
- METER框架的准确率超过了以前的最优模型。
- 在最佳情况下,METER框架的准确率可达到80.54%。
- 研究通过对模型设计进行分解,使用预训练的增强模型,提升了性能。
➡️