BeanCounter:低毒性、大规模和开放的商业导向文本数据集

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

研究推出了BeanCounter,一个包含1590亿个令牌的公共数据集,专注于商业公开信息。与网络数据集相比,BeanCounter的数据更真实、毒性更低,并在金融领域表现更好。这为训练大型语言模型提供了高质量、低毒性的领域特定数据源。

🎯

关键要点

  • 研究推出了BeanCounter,一个包含1590亿个令牌的公共数据集。

  • BeanCounter专注于商业公开信息,填补了大型高质量数据集的缺口。

  • 与网络数据集相比,BeanCounter的数据更真实、毒性更低。

  • BeanCounter在金融领域表现更好。

  • 该数据集为训练大型语言模型提供了高质量、低毒性的领域特定数据源。

➡️

继续阅读