斯堪的纳维亚语言的大型网络数据集SWEb
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究通过SWEb数据集解决了斯堪的纳维亚语言预训练数据不足的问题。使用新型文本提取器简化处理,并推出新的填空式基准评估方法,结果与FineWeb数据集上的模型表现相当。
🎯
关键要点
- 本研究解决了斯堪的纳维亚语言预训练数据集不足的问题。
- 提出了一个超过一万亿标记的SWEb数据集。
- 引入新型模型基础的文本提取器,显著降低了处理复杂性。
- 推出了新的填空式基准评估语言模型的方法。
- 展示了与FineWeb数据集上训练的模型的竞争性结果。
➡️