The Verge ·

Meta被指操控AI基准测试

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

Meta发布了Llama 4的两个新模型：Scout和Maverick。Maverick在AI基准测试LMArena中表现优异，但Meta承认测试版与公众版存在优化差异，引发了对基准测试公正性的担忧，AI社区对此表示质疑。

🎯

🔎

Meta在LMArena的表现引发了对基准测试公正性的质疑。Maverick的测试版本与公众版存在差异，这可能导致开发者对模型的真实能力产生误解。基准测试的透明度和一致性对于AI开发至关重要，开发者在选择模型时需谨慎对待这些测试结果。

Meta在发布Llama 4时的策略显示出其在AI领域的竞争意图。尽管面临内部挑战和外部质疑，Meta仍希望通过优化模型来提升市场地位。这种策略可能会影响其他公司的开发决策，尤其是在基准测试的选择上。

使用优化模型进行基准测试可能让开发者面临选择困难。由于基准测试结果可能不反映公众可用模型的真实能力，开发者在选择时需考虑模型的实际应用效果，而不仅仅依赖于测试排名。

❓

Meta发布了两个新的Llama 4模型：Scout和Maverick。

Maverick在LMArena中表现优异，获得了1417的ELO分数，排名第二。

Meta承认在LMArena测试的Maverick版本是一个实验性聊天版本，专门为对话优化。

LMArena担忧Meta的做法可能影响基准测试的公正性，并表示需要更新排行榜政策以确保公平评估。

Meta的发言人表示，他们会实验各种定制版本，并期待开发者的反馈。

Meta发布Llama 4的时机引发疑问，因为通常周六不太会发布重大AI新闻，扎克伯格表示这是因为模型准备好了。

🏷️