稳健的孟加拉文档布局分割无锚模型集合
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究通过调整超参数改进了Mask R-CNN模型,成功解决了理解孟加拉语文档的问题。然而,对英文文档训练的模型不适用于孟加拉语。DL Sprint 2.0方案已公开可用。
🎯
关键要点
-
理解数字化文档类似于解谜游戏,尤其是历史文档。
-
文档布局分析(DLA)将文档划分为段落、图像和表格等部分,以帮助机器读取和理解。
-
本研究使用 BaDLAD 数据集,针对理解孟加拉语文档进行了工作。
-
通过调整超参数,改进了 Mask R-CNN 模型,取得了 Dice 分数 0.889。
-
对英文文档训练的模型不适用于孟加拉语,显示出每种语言的独特挑战。
-
DL Sprint 2.0 方案的解决方案已公开可用,包含笔记本、权重和推断笔记本。
🏷️
标签
➡️