RoDLA:评估文档布局分析模型的鲁棒性
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
在开发文档布局分析(DLA)模型之前,需要进行稳健性测试。本研究引入了DLA模型的稳健性基准,包括450K个文档图像。提出了36种常见文档扰动的分类方法,并引入了两个评估指标。引入了一个名为RoDLA的模型,改进了注意力机制。实验结果表明RoDLA在稳健性上有显著改进。
🎯
关键要点
- 在开发文档布局分析(DLA)模型之前,进行稳健性测试是必要的。
- DLA模型的稳健性在文献中尚未得到充分探索。
- 本研究引入了DLA模型的稳健性基准,包括450K个文档图像。
- 提出了36种常见文档扰动的分类方法,以涵盖真实世界的破坏。
- 引入了两个评估指标:扰动评估的“Mean Perturbation Effect (mPE)”和稳健性评估的“Mean Robustness Degradation (mRD)”。
- 引入了名为“Robust Document Layout Analyzer (RoDLA)”的模型,改进了注意力机制。
- 实验结果表明RoDLA在稳健性上有显著改进,mRD得分分别为115.7、135.4和150.4。
- RoDLA在mAP上分别取得了+3.8%、+7.1%和+12.1%的显著改进。
🏷️
标签
➡️