小红花·文摘 - 小红花技术领袖俱乐部

本研究解决了开放源语言模型开发中的数据挑战，发布了RedPajama-V1和V2数据集，提供超过100万亿条高质量文本数据，推动语言模型的透明与高效发展。

RedPajama：用于训练大型语言模型的开放数据集

BriefGPT - AI 论文速递 ·