bbOCR:一个用于孟加拉文档的开源多领域 OCR 处理流程
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了Bengali.AI-BRACU-OCR(bbOCR):一种开源可扩展的文档光学字符识别系统,可将孟加拉语文档重构为结构化的可搜索的数字化格式,并提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。全面的组件级和系统级评估结果表明,我们提出的解决方案优于当前最先进的孟加拉语OCR系统。
🎯
关键要点
-
介绍了Bengali.AI-BRACU-OCR(bbOCR),一种开源可扩展的文档光学字符识别系统。
-
该系统能够将孟加拉语文档重构为结构化的可搜索的数字化格式。
-
提出了一种新颖的孟加拉语文本识别模型和两个合成数据集。
-
全面的组件级和系统级评估结果表明,该解决方案优于当前最先进的孟加拉语OCR系统。
🏷️
标签
➡️