爱范儿 ·

中文得分世界第一，多项盲测并肩 GPT4o，这个国产大模型怎么就成了 AI 界的黑马？

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

中国大模型公司零一万物发布的闭源模型Yi-Large在LMSYS盲测竞技场中排名世界第7，中文得分世界第一。LMSYS的Chatbot Arena成为全球大厂硬碰硬的擂台，零一万物成为总榜上唯一一个进入前十的中国大模型企业。LMSYS采用Elo评分系统保证排名客观公正。大模型厂商应积极参与权威评测平台，提升产品竞争力。

🎯

关键要点

零一万物发布的闭源模型Yi-Large在LMSYS盲测竞技场中排名世界第7，中文得分世界第一。
Yi-Large超过了Llama-3-70B和Claude 3 Sonnet，成为中国大模型中排名第一的产品。
LMSYS的Chatbot Arena成为全球大厂竞争的平台，零一万物是唯一进入前十的中国大模型企业。
LMSYS实施了重复数据删除机制，以提高Chatbot Arena的查询质量。
Yi-Large在编程能力、长提问和艰难提示词的评测中表现优异，分别位列全球第二。
Chatbot Arena采用Elo评分系统，确保排名的客观公正。
此次比赛共有44款模型参赛，Yi-Large以千亿参数量级紧追万亿级别模型。
大模型厂商应积极参与权威评测平台，以提升产品竞争力和真实应用效果。
AI大模型的竞争仍在加剧，公平的评价体系对行业发展至关重要。

❓

延伸问答

Yi-Large在LMSYS盲测竞技场的排名如何？

Yi-Large在LMSYS盲测竞技场中排名世界第7，中文得分世界第一。

LMSYS的Chatbot Arena是如何确保排名公正的？

LMSYS的Chatbot Arena采用Elo评分系统，并实施重复数据删除机制，以确保排名的客观公正。

Yi-Large在编程能力评测中的表现如何？

在编程能力评测中，Yi-Large的表现位列全球第二，仅次于GPT-4o。

为什么大模型厂商应参与权威评测平台？

大模型厂商应参与权威评测平台，以提升产品竞争力和真实应用效果。

Yi-Large在长提问和艰难提示词评测中的表现如何？

在长提问和艰难提示词评测中，Yi-Large均位列全球第二，与其他顶尖模型并列。

LMSYS Chatbot Arena的用户投票机制是怎样的？

用户在Chatbot Arena中对两个模型的回答进行匿名投票，选择更佳的模型，从而确保评测的客观性。

🏷️