InfoQ ·

Hugging Face发布FinePDFs：一个由PDF构建的3万亿标记数据集

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

Hugging Face发布了FinePDFs，这是最大的公开PDF语料库，包含4.75亿份文档和约3万亿个标记。该数据集利用文本提取和GPU OCR技术，解决了PDF处理的挑战，涵盖多种语言，尤其在法律和学术领域具有潜力，免费供研究使用。

🎯

🔎

FinePDFs数据集的发布为法律、学术和技术写作领域提供了高质量的内容来源。与传统的HTML数据集相比，PDF文档通常包含更专业的知识，适合进行深度学习和自然语言处理研究。研究人员应关注如何利用这些独特的文档特性来提升模型性能。

尽管FinePDFs成功解决了PDF文本提取的难题，但仍需注意不同文档格式可能带来的挑战。数据集的处理依赖于先进的文本提取和OCR技术，研究人员在使用时应考虑这些技术的局限性，以确保数据的准确性和可靠性。

FinePDFs为长上下文训练提供了新的可能性，因为PDF文档通常比网页更长。这一特性使得研究人员能够探索更复杂的语言模型，尤其是在需要处理大量信息的任务中，FinePDFs可能成为重要的资源。

❓

FinePDFs是最大的公开PDF语料库，包含4.75亿份文档和约3万亿个标记，数据集大小为3.65TB。

FinePDFs通过文本提取（Docling）和GPU驱动的OCR（RolmOCR）技术，成功处理了多种格式的文档。

FinePDFs涵盖多种语言，英语占比最大，超过1.1万亿个标记，西班牙语、德语、法语、俄语和日语各贡献超过1000亿个标记。

FinePDFs有助于推进长上下文训练，因为PDF文档通常比网页长，提供了更多上下文信息。

Hugging Face在FinePDFs的子集上训练了1.67B参数模型，结果显示其性能接近于SmolLM-3 Web，并强调了基于概率的报告。

FinePDFs在Open Data Commons Attribution许可证下发布，供研究和开发免费使用。

🏷️