HyperAI超神经 ·

含 14 万张图像！华中科技大学发布高质量甲骨文数据集，助力团队摘冠 ACL 最佳论文

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

甲骨文是中国最早的文字之一，记录了丰富的历史信息。华中科技大学的研究团队提出了高质量的HUST-OBC数据集，包含已破译和未破译的甲骨文图像。通过该数据集，研究人员训练了AI模型，取得了较高的分类准确率。华中科技大学的研究团队还开展了甲骨文破译的相关研究，并获得了ACL最佳论文奖。

🎯

❓

HUST-OBC数据集包含140,053张甲骨文图像，其中77,064张为已破译图像，62,989张为未破译图像。

华中科技大学的研究团队获得了ACL最佳论文奖，研究题目为《Deciphering Oracle Bone Language with Diffusion Models》。

HUST-OBC数据集通过从书籍、网站和现有数据集中收集甲骨文图像，并经过数据获取、自动标注、数据整合和数据验证等步骤构建而成。

AI辅助破译甲骨文，通过训练模型提高了分类准确率，研究人员利用条件扩散模型OBSD进行甲骨文破译，展示了其有效性和潜力。

使用HUST-OBC数据集训练的AI模型取得了94.6%的分类准确率。

甲骨文是中国最早的文字之一，约可追溯到3000年前，记录了丰富的历史信息，包括天文学、气象学等多个领域。

🏷️