小红花·文摘

通过训练用户模拟器 UserGPT 和生成合成对话数据集 RealChat，实验结果显示该模型在 Vicuna-Bench 和 MT-Bench 中表现优于基线模型，手动评估结果也很竞争。通过与 LLaMA 2 模型微调，ReaLM 在 MT-Bench 中取得领先分数，展示了可扩展性和可迁移性。初步探索了训练集数据质量与模型性能之间的相互作用。