一种跨字体图像检索网络用于识别未解读的甲骨文

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

本文介绍了一种基于生成对抗网络的无监督方法,能够生成多样的古代文字图像,并在OCR文档字符替换成本测量中表现出色。研究展示了通过CNN和新数据集提高古文献学研究的准确性,提出了无监督领域适应方法以增强模型鲁棒性,并开发了多个数据集以支持古代文字解码和研究。

🎯

关键要点

  • 提出了一种基于生成对抗网络的无监督方法,能够生成多样的古代文字图像。

  • 使用自我监督训练的视觉变换器(ViT)来测量OCR文档的字符替换成本,显著提高记录链接的精度。

  • 通过创建古代汉字的同形异义字集合,捕捉古代社会不同抽象概念的关系。

  • 展示了跨编码器训练数据对CNN基于文本无关离线识别历史抄写员的重要性。

  • 使用屏蔽灰度图像的预处理提高了分类结果的F1分数。

  • 在行级别和页级别上分别获得了高达0.96和1.0的F1分数。

  • 提出了一种新的无监督领域适应方法,增强模型在磨损、污渍和失真下的鲁棒性。

  • 构建了包含13,714个字符类别的EVolution Oracle Bone Characters (EVOBC)数据集,辅助研究甲骨文。

  • 创造了华中科技大学甲骨学数据集,为未知甲骨文字的解码研究提供帮助。

  • 开发了Oracle Bone Script Decipher (OBSD)方法,为甲骨文字解密提供重要线索。

  • 通过Puzzle Pieces Picker(P$^3$)进行基体重建,解密未解谜的甲骨文。

  • 创建了Oracle Bone Inscriptions多模态数据集(OBIMD),为古文字学研究提供高质量的注释信息。

延伸问答

这项研究提出了什么样的方法来生成古代文字图像?

研究提出了一种基于生成对抗网络的无监督方法,能够生成多样的古代文字图像。

如何提高OCR文档的字符替换成本测量的准确性?

使用自我监督训练的视觉变换器(ViT)和字符表示之间的余弦距离来测量字符替换成本,从而显著提高记录链接的精度。

EVolution Oracle Bone Characters (EVOBC)数据集的作用是什么?

EVOBC数据集包含13,714个字符类别,辅助研究甲骨文,通过研究字符形式的演变来帮助解读甲骨文。

研究中如何增强模型在磨损和失真下的鲁棒性?

提出了一种新的无监督领域适应方法,通过伪标签和约束增强一致性,从标记的字符向未标记的扫描数据中传递知识。

Oracle Bone Script Decipher (OBSD)方法的创新之处是什么?

OBSD是一种基于条件扩散策略的图像生成方法,为甲骨文字解密提供重要线索,开辟了古代语言的人工智能辅助分析新道路。

Puzzle Pieces Picker(P$^3$)方法的目的是什么?

P$^3$方法用于基体重建,旨在解密大量未解谜的甲骨文,揭示古老文字的秘密。

➡️

继续阅读