大型语言模型的数据集:综述
原文中文,约300字,阅读约需1分钟。发表于: 。该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖 8 个语言类别和 32 个领域,包括来自 444 个数据集的统计信息,共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据;旨在为研究人员提供整个 LLM 文本数据集的全貌,并为未来的研究做出贡献。
该调研总结了高效大型语言模型的研究成果,整理了相关文献并创建了GitHub存储库,为研究人员和从业者提供有价值的资源,促进该领域的发展。