机器之心 ·

Meta Llama 4被疑考试「作弊」：在竞技场刷高分，但实战中频频翻车

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

Meta 最近推出的 Llama 4 系列 AI 模型在编码能力上受到用户批评，实际表现不如其他模型，尽管官方排名较高，但在编程任务中的效果不佳，存在误导性。

🎯

🔎

Meta 的 Llama 4 系列在基准测试中的高分引发了用户的质疑。尽管官方排名靠前，但用户反馈显示其在实际编程任务中的表现不佳。这表明，基准测试的设计和执行可能存在偏差，开发者在选择模型时需谨慎，避免仅依赖官方数据。

Llama 4 的实际使用体验与官方宣传存在明显差距，尤其是在编码能力方面。用户在复杂问题上遇到困难，尽管响应速度快，但处理能力有限。这提醒用户在选择 AI 模型时，需关注真实用户反馈，而非仅仅依赖于市场宣传。

Meta 在 LM Arena 上的模型表现与公开版本存在显著差异，可能是为了提高分数而进行的定制优化。这种做法可能导致开发者对模型的实际表现产生误判，影响其在特定应用场景中的有效性。因此，开发者应关注模型的实际应用效果，而非单纯的基准测试分数。

❓

Llama 4系列包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。

用户普遍反馈Llama 4的编码能力差，实际编程效果不佳。

在Kscores基准测试中，Llama 4的表现不如GPT-4o和其他模型。

因为公开版本与LM Arena上的模型行为差异显著，可能为提高分数而定制模型。

用户发现Llama 4在处理复杂问题时能力有限，但响应速度较快。

官方排名较高，但用户体验显示其实际表现不佳，存在较大差距。

🏷️