小红花·文摘

本文探讨了利用过滤和去重的网络数据训练大型语言模型的有效性，提出了 EvalWeb 工具链和高质量中文文本数据集 ChineseWebText。研究综述了多个语言和领域的大型语言模型数据集，旨在为研究人员提供全面的文本数据集视角，并探讨了通过搜索引擎增强模型性能的方法及多语言微调数据集的构建，推动语言模型的研究与发展。

FineWeb 数据集：对网络进行精细分离以获取大规模最佳文本数据

BriefGPT - AI 论文速递 ·

通过KS-Lottery方法，使用Kolmogorov-Smirnov检验分析参数分布变化，识别出在多语言微调中非常有效的少数LLM参数集。实验证明，微调LLaMA中的18个标记的嵌入层就足以达到微调翻译性能。

KS-Lottery: 查找多语言模型的认证彩票

BriefGPT - AI 论文速递 ·