DocTrack: 一个与人眼运动真正对齐的视觉丰富的文档数据集,用于机器阅读
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了文档人工智能社区重新评估当前方法学的任务,并提出了文档理解数据集和评估(DUDE)来纠正在理解视觉丰富文档方面的研究进展。DUDE包含来自各个行业、领域和多页的视觉丰富文档的各种问题、答案和布局,并通过创建多任务和多领域的评估设置来推动当前方法的界限。
🎯
关键要点
-
文档人工智能社区正在重新评估当前的方法学。
-
提出文档理解数据集和评估 (DUDE) 以纠正理解视觉丰富文档的研究进展。
-
DUDE包含来自各个行业、领域和多页的视觉丰富文档的各种问题、答案和布局。
-
通过创建多任务和多领域的评估设置,推动当前方法的界限。
-
DUDE旨在为社区树立更实用、长期的基准标准。
-
希望DUDE能导致未来的扩展和贡献,以应对实际挑战。
-
强调在文档人工智能中有效建模语言、图像和布局的重要性。
🏷️