💡 原文英文,约400词,阅读约需2分钟。
📝

内容提要

Hugging Face发布了FinePDFs,这是最大的公开PDF语料库,包含4.75亿份文档和约3万亿个标记。该数据集利用文本提取和GPU OCR技术,解决了PDF处理的挑战,涵盖多种语言,尤其在法律和学术领域具有潜力,免费供研究使用。

🎯

关键要点

  • Hugging Face发布了FinePDFs,这是最大的公开PDF语料库,包含4.75亿份文档和约3万亿个标记。
  • FinePDFs的数据集大小为3.65TB,利用文本提取和GPU OCR技术,解决了PDF处理的挑战。
  • PDF文档在法律、学术和技术写作领域具有独特优势,但提取可用文本 historically 具有挑战性。
  • FinePDFs通过文本提取(Docling)和GPU驱动的OCR(RolmOCR)等技术,成功处理了多种格式的文档。
  • 该数据集涵盖多种语言,英语占比最大,超过1.1万亿个标记,西班牙语、德语、法语、俄语和日语各贡献超过1000亿个标记。
  • Hugging Face在FinePDFs的子集上训练了1.67B参数模型,结果显示其性能接近于SmolLM-3 Web。
  • FinePDFs的发布引发了社区对评估方法的关注,Hugging Face团队强调了基于概率的报告。
  • 研究人员认为FinePDFs有助于推进长上下文训练,PDF文档通常比网页长。
  • FinePDFs在Open Data Commons Attribution许可证下发布,供研究和开发免费使用,托管在Hugging Face Hub上。
➡️

继续阅读