Hugging Face发布了FinePDFs,这是最大的公开PDF语料库,包含4.75亿份文档和约3万亿个标记。该数据集利用文本提取和GPU OCR技术,解决了PDF处理的挑战,涵盖多种语言,尤其在法律和学术领域具有潜力,免费供研究使用。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: