含 14 万张图像!华中科技大学发布高质量甲骨文数据集,助力团队摘冠 ACL 最佳论文
内容提要
甲骨文是中国最早的文字之一,记录了丰富的历史信息。华中科技大学的研究团队提出了高质量的HUST-OBC数据集,包含已破译和未破译的甲骨文图像。通过该数据集,研究人员训练了AI模型,取得了较高的分类准确率。华中科技大学的研究团队还开展了甲骨文破译的相关研究,并获得了ACL最佳论文奖。
关键要点
-
甲骨文是中国最早的文字之一,记录了丰富的历史信息。
-
华中科技大学研究团队提出了高质量的HUST-OBC数据集,包含已破译和未破译的甲骨文图像。
-
HUST-OBC数据集从书籍、网站和现有数据集中收集,包含77,064张已破译和62,989张未破译的甲骨文图像。
-
研究团队利用AI模型训练,取得了94.6%的分类准确率。
-
华中科技大学在甲骨文研究方面处于前沿,白翔教授带领团队获得ACL最佳论文奖。
-
研究利用条件扩散模型OBSD进行甲骨文破译,展示了其有效性和潜力。
-
HyperAI超神经联合电子工业出版社推出赠书活动,推广AI在科学创新中的应用。
延伸问答
HUST-OBC数据集包含多少张甲骨文图像?
HUST-OBC数据集包含140,053张甲骨文图像,其中77,064张为已破译图像,62,989张为未破译图像。
华中科技大学的研究团队在甲骨文研究中取得了什么成就?
华中科技大学的研究团队获得了ACL最佳论文奖,研究题目为《Deciphering Oracle Bone Language with Diffusion Models》。
HUST-OBC数据集是如何构建的?
HUST-OBC数据集通过从书籍、网站和现有数据集中收集甲骨文图像,并经过数据获取、自动标注、数据整合和数据验证等步骤构建而成。
AI在甲骨文破译中起到了什么作用?
AI辅助破译甲骨文,通过训练模型提高了分类准确率,研究人员利用条件扩散模型OBSD进行甲骨文破译,展示了其有效性和潜力。
HUST-OBC数据集的分类准确率是多少?
使用HUST-OBC数据集训练的AI模型取得了94.6%的分类准确率。
甲骨文的历史背景是什么?
甲骨文是中国最早的文字之一,约可追溯到3000年前,记录了丰富的历史信息,包括天文学、气象学等多个领域。