Hugging Face发布FinePDFs：一个由PDF构建的3万亿标记数据集

InfoQ ·

Hugging Face发布FinePDFs：一个由PDF构建的3万亿标记数据集

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

Hugging Face发布了FinePDFs，这是最大的公开PDF语料库，包含4.75亿份文档和约3万亿个标记。该数据集利用文本提取和GPU OCR技术，解决了PDF处理的挑战，涵盖多种语言，尤其在法律和学术领域具有潜力，免费供研究使用。

🎯

关键要点

Hugging Face发布了FinePDFs，这是最大的公开PDF语料库，包含4.75亿份文档和约3万亿个标记。
FinePDFs的数据集大小为3.65TB，利用文本提取和GPU OCR技术，解决了PDF处理的挑战。
PDF文档在法律、学术和技术写作领域具有独特优势，但提取可用文本 historically 具有挑战性。
FinePDFs通过文本提取（Docling）和GPU驱动的OCR（RolmOCR）等技术，成功处理了多种格式的文档。
该数据集涵盖多种语言，英语占比最大，超过1.1万亿个标记，西班牙语、德语、法语、俄语和日语各贡献超过1000亿个标记。
Hugging Face在FinePDFs的子集上训练了1.67B参数模型，结果显示其性能接近于SmolLM-3 Web。
FinePDFs的发布引发了社区对评估方法的关注，Hugging Face团队强调了基于概率的报告。
研究人员认为FinePDFs有助于推进长上下文训练，PDF文档通常比网页长。
FinePDFs在Open Data Commons Attribution许可证下发布，供研究和开发免费使用，托管在Hugging Face Hub上。

🏷️

继续阅读

关于混合动力车辆的不安真相
一项研究显示，981,035辆欧洲车辆的插电式混合动力车(PHEV)平均每100公里消耗6升燃油，远高于之前的估计。这是因为在使用电力时仍会消耗燃油，且车...
【音视频】客户端音视频超分
超分技术在移动音视频领域提升用户体验并降低带宽成本。iOS开发者应充分利用Apple硬件，通过Core ML和Vision实现超分。面临的主要挑战包括零拷...
HandBrake 1.11 新增了 ProRes、DNxHR 编码器和 MOV 输出格式
开源视频转码器HandBrake发布1.11.0版本，新增DNxHR和ProRes编码器，支持最高4K分辨率的MOV输出，增加AMD VCN AV1编码器...
基于华为开发者空间鸿蒙云手机+MaaS的鸿蒙原生智能应用开发 - 翻译助手APP
本文介绍了基于华为鸿蒙云手机和MaaS平台的翻译助手APP开发案例。开发者需使用DevEco Studio和DevEco Testing工具，远程连接云手...
短剧产业，“困”在红果里
开年3月份，短剧行业一则消息传出：多家短剧承制方被红果取消了保底机制，尤其是一些中小承制方，平台开始大程度地保留头部精品项目，还有中小承制方称，团队在春节...
富士胶片商业创新中国推出新一代可一次成像六色旗舰生产型数字印刷系统
富士胶片商业创新（中国）于3月6日推出Revoria Press PC2120数字印刷系统，采用AI技术，支持六色印刷，提升色彩表现和质量检测，简化分色流程。

Hugging Face发布FinePDFs：一个由PDF构建的3万亿标记数据集

内容提要

关键要点

标签

继续阅读