BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了BiblioPage数据集,旨在解决手动数字化书目元数据耗时的问题。该数据集包含来自14家捷克图书馆的约2000个标题页,标注了16个书目属性,以支持文档理解和信息提取的自动化处理。

🎯

关键要点

  • BiblioPage数据集旨在解决手动数字化书目元数据耗时的问题。
  • 该数据集包含来自14家捷克图书馆的约2000个标题页。
  • BiblioPage数据集标注了16个书目属性。
  • 该数据集支持文档理解和信息提取的自动化处理。
  • BiblioPage填补了缺乏专用元数据提取数据集的空白。
➡️

继续阅读