本研究指出Chatbot Arena排行榜在评估AI系统能力时存在系统性问题,导致结果失真。揭示了数据获取不对称的影响,并提出改进建议,以实现更公平透明的基准测试。
中国大模型公司零一万物发布的闭源模型Yi-Large在LMSYS盲测竞技场中排名世界第7,中文得分世界第一。LMSYS的Chatbot Arena成为全球大厂硬碰硬的擂台,零一万物成为总榜上唯一一个进入前十的中国大模型企业。LMSYS采用Elo评分系统保证排名客观公正。大模型厂商应积极参与权威评测平台,提升产品竞争力。
完成下面两步后,将自动完成登录并继续当前操作。