实锤了,Llama 4重测排名掉至32名!远不及DeepSeek和Qwen

实锤了,Llama 4重测排名掉至32名!远不及DeepSeek和Qwen

💡 原文中文,约900字,阅读约需3分钟。
📝

内容提要

Meta最新发布的开源大模型Llama-4-Maverick在LMArena的排名从第2名跌至第32名,因开发者质疑其为“特供版”而刷榜。Chatbot Arena确认Meta提供的版本与开源版不同,导致口碑急剧下降。

🎯

关键要点

  • Meta发布的开源大模型Llama-4-Maverick在LMArena的排名从第2名跌至第32名。
  • 开发者质疑Meta提供的版本为'特供版',导致口碑急剧下降。
  • 4月6日,Meta发布了Llama 4大模型的三个版本:Scout、Maverick和Behemoth。
  • Llama-4-Maverick最初在Chatbot Arena的排名为第二,仅次于Gemini 2.5 Pro。
  • 开发者发现Meta提供的Llama 4版本与开源版本不同,质疑Meta刷榜作弊。
  • 4月8日,Chatbot Arena确认Meta提供的是'特供版',并考虑更新排行榜。
  • Meta首次提交的Llama-4-Maverick-03-26-Experimental是实验性聊天优化版本。
  • 修正后的模型为HuggingFace开源版同款Llama-4-Maverick-17B-128E-Instruct,目前排名为32名。
  • Llama-4-Maverick-17B-128E-Instruct的排名低于多个其他模型,包括Gemini 2.5 Pro和GPT4o。

延伸问答

Llama-4-Maverick的排名变化是什么?

Llama-4-Maverick的排名从第2名跌至第32名。

为什么开发者质疑Meta的Llama 4版本?

开发者质疑Meta提供的版本为'特供版',认为Meta刷榜作弊。

Meta发布了哪些版本的Llama 4大模型?

Meta发布了Scout、Maverick和Behemoth三个版本的Llama 4大模型。

Llama-4-Maverick的初始排名是多少?

Llama-4-Maverick的初始排名为第二,仅次于Gemini 2.5 Pro。

Chatbot Arena对Meta的质疑做了什么回应?

Chatbot Arena确认Meta提供的是'特供版',并考虑更新排行榜。

Llama-4-Maverick-17B-128E-Instruct的排名如何?

Llama-4-Maverick-17B-128E-Instruct的排名为32名,低于多个其他模型。

➡️

继续阅读