中世纪手稿可靠抄写者识别的跨码学习
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本文展示了跨编码器训练数据对 CNN 基于文本无关离线识别历史抄写员的重要性。通过实验报告得出三个主要发现:使用屏蔽灰度图像的预处理明显提高了分类结果的 F1 分数;使用不同的神经网络对复杂数据进行训练,验证时间和准确率之间的差异,确定最可靠的网络架构;通过实施拒绝选项可以进一步改善 CNN 输出,获得更稳定的结果。展示了大规模开源数据集中的结果,为古文献学家提供了多种新快速获取未标记材料见解的方法。
🎯
关键要点
- 历史抄写员识别是获取过去信息的重要任务。
- 跨编码器训练数据对 CNN 基于文本无关离线识别历史抄写员的重要性。
- 使用屏蔽灰度图像的预处理明显提高了分类结果的 F1 分数。
- 不同神经网络对复杂数据进行训练,验证时间和准确率之间的差异。
- 使用 AlexNet 网络在行级别上获得高达 0.96 的 F1 分数,在页级别上获得高达 1.0 的 F1 分数。
- 实施拒绝选项可以进一步改善 CNN 输出,获得更稳定的结果。
- 展示了大规模开源数据集 Codex Claustroneoburgensis 数据库中的结果。
- 使用 CNN 自动且准确地复现古文献学决策,为古文献学家提供新方法。
➡️