RedPajama:用于训练大型语言模型的开放数据集

💡 原文中文,约900字,阅读约需2分钟。
📝

内容提要

本研究解决了开放源语言模型开发中的数据挑战,发布了RedPajama-V1和V2数据集,提供超过100万亿条高质量文本数据,推动语言模型的透明与高效发展。

🎯

关键要点

  • 本研究解决了开放源语言模型开发中的三大数据相关挑战。
  • 发布了RedPajama-V1和RedPajama-V2数据集。
  • 提供了超过100万亿个标记的高质量原始文本数据。
  • 旨在推动透明且高效能的语言模型的发展。
  • 通过网络数据的质量信号,可以有效筛选出高质量的数据子集。
  • 展现了RedPajama在推动大规模语言模型发展的潜力。
➡️

继续阅读