PsOCR:低资源普什图语光学字符识别的大型多模态模型评估

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究构建了包含一百万张标注图像的PsOCR数据集,解决了普什图语OCR中的数据稀缺和文字形态问题。结果表明,Gemini模型表现最佳,Qwen-7B在开源模型中领先,为普什图语OCR研究奠定了基础。

🎯

关键要点

  • 本研究构建了包含一百万张标注图像的PsOCR数据集。
  • 研究解决了普什图语OCR中的数据稀缺和文字形态问题。
  • Gemini模型在所有模型中表现最佳。
  • Qwen-7B在开源模型中领先。
  • 该研究为普什图语及其他类似文字的OCR研究奠定了基础。
➡️

继续阅读