HABD:侯马联盟书古代手写字符识别数据库
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对侯马联盟书中因古老来源和墨水侵蚀导致的字符识别困难问题,提出了一种新的古代手写字符识别数据库,并基于深度学习架构创建了创新性基准。研究结果包括26,732个字符样本和327种不同类型的古代字符,有助于推动对侯马联盟书及其它古代字符的研究,促进对古文化和历史的理解及人类文化遗产的保护与传承。
本文强调了使用跨编码器训练数据对CNN进行历史抄写员识别的重要性。实验结果显示,预处理中的屏蔽灰度图像可以提高分类结果的F1分数。AlexNet网络在行级别和页级别上获得了高F1分数。通过实施拒绝选项可以进一步改善CNN输出。使用大规模开源数据集展示了自动复现古文献学决策的能力,为古文献学家提供了获取未标记材料见解的新方法。