LMSYS-Chat-1M:一种大规模真实 LLM 对话数据集
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究训练了用户模拟器 UserGPT 并产生了高质量的合成对话数据集 RealChat,实验结果表明该模型在 Vicuna-Bench 和 MT-Bench 中优于基线模型。通过与最新 LLaMA 2 模型进行微调,ReaLM 在 MT-Bench 中获得了 6.33 的领先分数。该研究还探索了训练集数据质量与模型性能之间的相互作用,并展示了可扩展性和可迁移性。
🎯
关键要点
- 研究训练了用户模拟器 UserGPT,产生了高质量的合成对话数据集 RealChat。
- 实验结果表明模型在 Vicuna-Bench 和 MT-Bench 中优于基线模型。
- ReaLM 在 MT-Bench 中获得了 6.33 的领先分数,超过了 LLaMA-2-7B-chat 模型。
- 研究展示了模型的可扩展性和可迁移性。
- 初步探索了训练集数据质量与模型性能之间的相互作用。
➡️