DriveThru: A Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出DriveThru平台,旨在解决印尼地方语言在自然语言处理中的代表性不足。该平台通过光学字符识别技术数字化印刷文档,降低人工成本,提升数据集构建能力,显著提高字符和词汇的准确率,具有广泛的应用潜力。

🎯

关键要点

  • 印尼是一个语言多样性极高的国家,但印尼地方语言在自然语言处理研究中代表性不足。
  • DriveThru平台通过光学字符识别技术数字化印刷文档,降低人工成本。
  • 该平台提升了数据集构建的规模化能力,显著提高了字符和词汇的准确率。
  • DriveThru平台具有广泛的应用潜力,能够促进印尼地方语言的研究和技术发展。
➡️

继续阅读