本研究使用BaDLAD数据集和Mask R-CNN模型,通过文档布局分析(DLA)解决了理解孟加拉语文档的问题。调整超参数后,模型的Dice分数达到了0.889。然而,对英文文档训练的模型不适用于孟加拉语。DL Sprint 2.0方案的解决方案公开可用,链接位于https URL。
本研究通过调整超参数改进了Mask R-CNN模型,成功解决了理解孟加拉语文档的问题。然而,对英文文档训练的模型不适用于孟加拉语。DL Sprint 2.0方案已公开可用。
本文介绍了Bengali.AI-BRACU-OCR(bbOCR):一种开源可扩展的文档光学字符识别系统,可将孟加拉语文档重构为结构化的可搜索的数字化格式,并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果表明,我们提出的解决方案优于当前最先进的孟加拉语OCR系统。
完成下面两步后,将自动完成登录并继续当前操作。