Hugging Face发布FinePDFs:一个由PDF构建的3万亿标记数据集

Hugging Face发布FinePDFs:一个由PDF构建的3万亿标记数据集

InfoQ InfoQ ·

Hugging Face发布了FinePDFs,这是最大的公开PDF语料库,包含4.75亿份文档和约3万亿个标记。该数据集利用文本提取和GPU OCR技术,解决了PDF处理的挑战,涵盖多种语言,尤其在法律和学术领域具有潜力,免费供研究使用。

原文英文,约400词,阅读约需2分钟。
阅读原文