中国大模型公司零一万物发布的闭源模型Yi-Large在LMSYS盲测竞技场中排名世界第7,中文得分世界第一。LMSYS的Chatbot Arena成为全球大厂硬碰硬的擂台,零一万物成为总榜上唯一一个进入前十的中国大模型企业。LMSYS采用Elo评分系统保证排名客观公正。大模型厂商应积极参与权威评测平台,提升产品竞争力。
该研究训练了用户模拟器 UserGPT 并产生了高质量的合成对话数据集 RealChat,实验结果表明该模型在 Vicuna-Bench 和 MT-Bench 中优于基线模型。通过与最新 LLaMA 2 模型进行微调,ReaLM 在 MT-Bench 中获得了 6.33 的领先分数。该研究还探索了训练集数据质量与模型性能之间的相互作用,并展示了可扩展性和可迁移性。
完成下面两步后,将自动完成登录并继续当前操作。