基于OCR进行Bert独立语义纠错实践

💡 原文中文,约6700字,阅读约需16分钟。
📝

内容提要

本文介绍了如何利用视频字幕识别中的文字检测与识别模型,增加预训练Bert进行纠错,提高OCR的准确性。同时介绍了如何使用ModelBox Windows SDK进行开发,包括下载模板、创建工程、查看流程图、核心逻辑和三方依赖库等。最后,介绍了如何在项目目录下执行main.bat运行应用,并在data目录下运行test_http.py脚本进行测试。

🎯

关键要点

  • 利用视频字幕识别中的文字检测与识别模型,增加预训练Bert进行纠错,提高OCR的准确性。
  • 项目初衷是纠正OCR在图像模糊或检测框较长时的错误识别。
  • 使用ModelBox Windows SDK进行开发,包括设备注册和SDK安装。
  • 下载文档识别应用模板,创建doc_ocr工程。
  • 查看doc_ocr工程的流程图,了解各功能单元的作用。
  • 核心逻辑包括文字检测与识别,重点在于文字纠错部分。
  • 使用Bert进行语义推理,判断是否需要纠错。
  • 依赖库包括pyclipper、Shapely、pillow等,自动安装配置在modelbox_requirements.txt中。
  • 通过执行main.bat运行应用,并使用test_http.py脚本进行测试,观察纠错结果。
➡️

继续阅读