本研究利用大型语言模型(如GPT-4o和Claude Sonnet 3.5)转录历史手写文档,克服了传统OCR/HTR系统的局限性。研究表明,这些模型在准确性和相似度上优于人类评估,显示出其在该领域的潜力。
本研究针对手写文本识别中的数据标注稀缺问题,提出了一种高效的数据利用的视觉变换器方法。通过采用卷积神经网络提取特征并引入焦点感知最小化优化器,显著提高了模型性能。此外,采用的跨度掩码技术作为正则化手段,在小数据集上表现出色,并在LAM数据集上建立了新的基准。
完成下面两步后,将自动完成登录并继续当前操作。