LMSYS-Chat-1M:一种大规模真实 LLM 对话数据集
原文中文,约400字,阅读约需1分钟。发表于: 。研究了人们在现实世界中如何与大型语言模型进行互动的重要性,介绍了包含 25 个尖端的大规模语料库,共有 100 万条来自 210K 个独立 IP 地址的真实对话的 LMSYS-Chat-1M 数据集的内容、统计数据和主题分布,通过四个应用案例展示了其多功能性,并认为该数据集将成为理解和推进大型语言模型能力的有价值资源。
该研究训练了用户模拟器 UserGPT 并产生了高质量的合成对话数据集 RealChat,实验结果表明该模型在 Vicuna-Bench 和 MT-Bench 中优于基线模型。通过与最新 LLaMA 2 模型进行微调,ReaLM 在 MT-Bench 中获得了 6.33 的领先分数。该研究还探索了训练集数据质量与模型性能之间的相互作用,并展示了可扩展性和可迁移性。