量子位 ·

Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战记录公开

💡 原文中文，约3800字，阅读约需10分钟。

📝

内容提要

Llama 4因使用特供版刷榜受到质疑，Meta公开了2000多组对战数据以分析模型表现与用户偏好关系。由于未标注模型版本，造成混淆，后续将更新排行榜政策。Llama 4实际表现不佳，质疑声不断，竞技场权威性受到挑战。

🎯

🔎

Meta公开了2000多组对战数据，旨在提升透明度，但未标注模型版本导致用户混淆。这一问题突显了在AI模型评估中，清晰的信息传达是多么重要。未来，Meta需加强对模型版本的标识，以避免类似事件再次发生。

Llama 4事件引发了对大模型竞技场评估方法的质疑。许多用户认为，基于人类偏好的评价标准已不再适用，尤其是在模型能力日益提升的背景下。未来，可能需要探索更科学的评估方式，以确保模型的真实表现得到准确反映。

用户对Llama 4的批评反映了实际应用中的问题，尤其是在代码生成任务中表现不佳。开发者应重视用户反馈，及时调整和优化模型，以提升用户体验和满意度。

❓

Llama 4因使用特供版刷榜而受到质疑，Meta公开了2000多组对战数据以分析其表现与用户偏好关系。

Meta将更新排行榜政策，以强化公平性和可复现性评估，避免未来出现模型版本标注不清的混淆。

Llama-4-Maverick-03-26-Experimental在代码生成任务中表现较好，但与其他模型相比仍存在差距。

用户对Llama 4的表现提出了多项批评，认为其在实际应用中未能达到预期。

大模型竞技场的评估方法受到质疑，认为人类偏好不再是评价高级大模型能力的可靠标准。

网友建议更新对大模型的评价方式，包括更改评分算法或启用强制风格转换。

🏷️