MathWriting: 数学手写表达识别数据集
原文中文,约200字,阅读约需1分钟。发表于: 。介绍了 MathWriting 数据集,它是迄今为止最大的在线手写数学表达式数据集,包含 23 万人工书写样本和 40 万个合成样本。MathWriting 还可用于离线 HME 识别,并且比所有现有的离线 HME 数据集(如 IM2LATEX-100K)都要大。为了推进在线和离线 HME 识别的研究,引入了基于 MathWriting 数据的基准测试。
本文提出了一种基于编码器-解码器网络的数学公式识别方法,通过加入语法规则和树遍历过程,减轻了结构预测误差。实验结果表明,该方法在三个基准数据集上取得了更好的识别性能。作者还创建了一个包含10万个手写数学表达式图像的大规模数据集,并公开了源代码、新数据集和预训练模型。