HABD:侯马联盟书古代手写字符识别数据库

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文强调了使用跨编码器训练数据对CNN进行历史抄写员识别的重要性。实验结果显示,预处理中的屏蔽灰度图像可以提高分类结果的F1分数。AlexNet网络在行级别和页级别上获得了高F1分数。通过实施拒绝选项可以进一步改善CNN输出。使用大规模开源数据集展示了自动复现古文献学决策的能力,为古文献学家提供了获取未标记材料见解的新方法。

🎯

关键要点

  • 历史抄写员识别是获取过去信息的重要任务。
  • 跨编码器训练数据对CNN基于文本无关离线识别历史抄写员的重要性。
  • 使用屏蔽灰度图像的预处理明显提高了分类结果的F1分数。
  • AlexNet网络在行级别和页级别上分别获得高达0.96和1.0的F1分数。
  • 实施拒绝选项可以进一步改善CNN输出,获得更稳定的结果。
  • 展示了Codex Claustroneoburgensis数据库中的结果,包含多种编码器的写作。
  • 使用CNN自动复现古文献学决策,为古文献学家提供新方法。
➡️

继续阅读