DriveThru: A Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出DriveThru平台,旨在解决印尼地方语言在自然语言处理中的代表性不足。该平台通过光学字符识别技术数字化印刷文档,降低人工成本,提升数据集构建能力,显著提高字符和词汇的准确率,具有广泛的应用潜力。
🎯
关键要点
- 印尼是一个语言多样性极高的国家,但印尼地方语言在自然语言处理研究中代表性不足。
- DriveThru平台通过光学字符识别技术数字化印刷文档,降低人工成本。
- 该平台提升了数据集构建的规模化能力,显著提高了字符和词汇的准确率。
- DriveThru平台具有广泛的应用潜力,能够促进印尼地方语言的研究和技术发展。
➡️