BeanCounter:低毒性、大规模和开放的商业导向文本数据集
原文中文,约200字,阅读约需1分钟。发表于: 。本研究提出了BeanCounter,一个由超过1590亿个令牌构成的公共数据集,专注于商业公开信息,填补了大型高质量数据集的缺口。研究表明,BeanCounter的数据相较于网络数据集更为真实和低毒性,并在金融领域展现出更好的性能。本文的工作为训练多亿参数的语言模型提供了一种新颖的低毒性和高质量的领域特定数据源。
研究推出了BeanCounter,一个包含1590亿个令牌的公共数据集,专注于商业公开信息。与网络数据集相比,BeanCounter的数据更真实、毒性更低,并在金融领域表现更好。这为训练大型语言模型提供了高质量、低毒性的领域特定数据源。