小红花·文摘

本文展示了跨编码器训练数据对 CNN 基于文本无关离线识别历史抄写员的重要性。通过实验报告得出三个主要发现：使用屏蔽灰度图像的预处理明显提高了分类结果的 F1 分数；使用不同的神经网络对复杂数据进行训练，验证时间和准确率之间的差异，确定最可靠的网络架构；通过实施拒绝选项可以进一步改善 CNN 输出，获得更稳定的结果。展示了大规模开源数据集中的结果，为古文献学家提供了多种新快速获取未标记材料见解的方法。