BriefGPT - AI 论文速递 ·

中世纪手稿可靠抄写者识别的跨码学习

💡 原文中文，约600字，阅读约需2分钟。

📝

内容提要

本文展示了跨编码器训练数据对 CNN 基于文本无关离线识别历史抄写员的重要性。通过实验报告得出三个主要发现：使用屏蔽灰度图像的预处理明显提高了分类结果的 F1 分数；使用不同的神经网络对复杂数据进行训练，验证时间和准确率之间的差异，确定最可靠的网络架构；通过实施拒绝选项可以进一步改善 CNN 输出，获得更稳定的结果。展示了大规模开源数据集中的结果，为古文献学家提供了多种新快速获取未标记材料见解的方法。

🎯

关键要点

历史抄写员识别是获取过去信息的重要任务。
跨编码器训练数据对 CNN 基于文本无关离线识别历史抄写员的重要性。
使用屏蔽灰度图像的预处理明显提高了分类结果的 F1 分数。
不同神经网络对复杂数据进行训练，验证时间和准确率之间的差异。
使用 AlexNet 网络在行级别上获得高达 0.96 的 F1 分数，在页级别上获得高达 1.0 的 F1 分数。
实施拒绝选项可以进一步改善 CNN 输出，获得更稳定的结果。
展示了大规模开源数据集 Codex Claustroneoburgensis 数据库中的结果。
使用 CNN 自动且准确地复现古文献学决策，为古文献学家提供新方法。

内容提要

关键要点

继续阅读