超越文档页面分类:设计、数据集和挑战

原文约500字,阅读约需1分钟。发表于:

本文强调将文档分类基准测试更贴近实际应用的需求,包括在测试的数据性质 ($X$:多通道、多页、多行业;$Y$:类别分布和标签集的多样性) 以及所考虑的分类任务 ($f$:多页文档、页面流和文档捆绑分类);我们确定了公共多页文档分类数据集的缺乏,形式化了应用场景中产生的不同分类任务,并提出了针对高效多页文档表示的价值的动机;对所提出的多页文档分类数据集进行的实证研究表明,当前的基准测试已经不再相关,需要更新以评估实际中出现的完整文档;这种现实检验也呼吁采用更成熟的评估方法,包括校准评估、推理复杂性(时间 - 内存)和一系列现实分布变化(如 born-digital vs. 扫描噪音、页面次序变化);我们研究以对未来改进提出具体建议的希望之声作为结束。

本文强调将文档分类基准测试更贴近实际应用的需求,包括数据性质和分类任务。实证研究表明当前基准测试已不再相关,需要更新以评估完整文档。呼吁采用更成熟的评估方法,提出具体建议的希望之声作为结束。

相关推荐 去reddit讨论