BeanCounter:低毒性、大规模和开放的商业导向文本数据集
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
研究推出了BeanCounter,一个包含1590亿个令牌的公共数据集,专注于商业公开信息。与网络数据集相比,BeanCounter的数据更真实、毒性更低,并在金融领域表现更好。这为训练大型语言模型提供了高质量、低毒性的领域特定数据源。
🎯
关键要点
-
研究推出了BeanCounter,一个包含1590亿个令牌的公共数据集。
-
BeanCounter专注于商业公开信息,填补了大型高质量数据集的缺口。
-
与网络数据集相比,BeanCounter的数据更真实、毒性更低。
-
BeanCounter在金融领域表现更好。
-
该数据集为训练大型语言模型提供了高质量、低毒性的领域特定数据源。
➡️