华为云官方博客 ·

4个大语言模型训练中的典型开源数据集

💡 原文中文，约11700字，阅读约需28分钟。

📝

内容提要

本文介绍了四种开源数据集：Pile、ROOTS、RefinedWeb和SlimPajama。Pile是一个多样性的大规模文本语料库，包含22个子集，涵盖了不同领域和主题。ROOTS是BigScience项目使用的数据集，包含59种语言，总大小约1.6TB。RefinedWeb是由TII开发的数据集，主要由高质量的CommonCrawl数据组成。SlimPajama是由CerebrasAI清洗和去重后的RedPajama数据集。文章还介绍了这些数据集的处理流程和方法。

🎯

关键要点

本文介绍了四种开源数据集：Pile、ROOTS、RefinedWeb和SlimPajama。
Pile是一个多样性的大规模文本语料库，包含22个子集，涵盖不同领域和主题，总大小为825GB。
ROOTS数据集是BigScience项目使用的数据集，包含59种语言，总大小约1.6TB，主要来源于公开语料、虚拟抓取、GitHub代码和网页数据。
RefinedWeb是由TII开发的数据集，主要由高质量的CommonCrawl数据组成，经过多个处理阶段后，仅保留约11.67%的数据。
SlimPajama是CerebrasAI清洗和去重后的RedPajama数据集，包含6270亿词元，处理过程包括NFC正规化、去重和训练集与保留集的切分等步骤。
文章详细介绍了每个数据集的处理流程和方法，强调数据质量和多样性对大语言模型训练的重要性。

🏷️

继续阅读

教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，训练、真机、评测一站解决
ClawGUI是一个开源框架，旨在解决GUI智能体的训练、评测和部署问题。它通过在线强化学习与真实设备交互，提升模型性能。ClawGUI-2B在Mobil...
硬核开源相控阵雷达系统AERIS-10爆火：低成本即可搭建、已在GitHub斩获1万多star
AERIS-10是一个开源相控阵雷达项目，工作在10.5 GHz频段，采用脉冲线性频率调制技术，旨在降低雷达技术的门槛。该项目提供两种版本，支持电子波束转...
从“开源英雄”到“社区公敌”，Ollama 到底做错了什么？
Ollama曾被视为开源英雄，但因未遵循开源协议和使用私有格式锁定用户而遭到社区批评。开发者们开始寻找替代方案，如回归llama.cpp或使用真正开源的包...
π0.7——4层prompt下的技能组合泛化能力：先高层策略基于指令历史和当前画面输出子任务指令，后世界模型基于子任务指令生成子目标图像
π0.7是一种新型通用机器人模型，具备强大的组合泛化能力。通过多模态数据和详细上下文标注，该模型能够有效执行多样化任务，并在新任务中展现灵巧技能。它结合了...
IETF收到IPv8协议草案提供1,844亿个IP地址 100%向下兼容IPv4协议
互联网工程任务组收到IPv8协议草案，旨在解决IPv6推进缓慢的问题。IPv8协议100%兼容现有IPv4设备，采用64位地址空间，格式为r.r.r.r....
那个集记账、基金、股票于一体的APP，IOS测试上线
财务管家APP本周更新了分红管理和存钱计划功能，支持记录分红和多种存钱方法，提升用户体验。iOS版本现可申请测试，暂时仅限VIP用户，安卓用户可直接注册使...

4个大语言模型训练中的典型开源数据集

内容提要

关键要点

标签

继续阅读