小红花·文摘

这项研究构建了一个超过500GB的阿拉伯语语料库，提升了大规模语言模型的跨领域知识和泛化能力。研究还改善了阿拉伯方言翻译性能，并提出了ATHAR数据集以解决古典阿拉伯语翻译数据稀缺问题。通过微调大型语言模型，显著提高了翻译质量，强调了定制训练的重要性。

Fineweb-Edu-Ar：支持阿拉伯语小型语言模型的机器翻译语料库

BriefGPT - AI 论文速递 ·

本文探讨了利用过滤和去重的网络数据训练大型语言模型的有效性，提出了 EvalWeb 工具链和高质量中文文本数据集 ChineseWebText。研究综述了多个语言和领域的大型语言模型数据集，旨在为研究人员提供全面的文本数据集视角，并探讨了通过搜索引擎增强模型性能的方法及多语言微调数据集的构建，推动语言模型的研究与发展。

FineWeb 数据集：对网络进行精细分离以获取大规模最佳文本数据

BriefGPT - AI 论文速递 ·