爱范儿 ·

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

开源AI模型Reflection 70B被指造假，其在基准测试中的成绩无法复现。质疑声指出Reflection 70B可能是在基础测试集上训练的，能力不足。AI榜单的可信度受到质疑，大模型考试的排名焦虑被传递给AI。基准测试的隐患包括数据泄露和作弊。基准测试的可信度需要提高，竞技场模式和用户投票可以作为参考。AI模型的选择应该基于实际需求和实践。

🎯

关键要点

开源AI模型Reflection 70B被指造假，其基准测试成绩无法复现。
质疑声指出Reflection 70B可能是在基础测试集上训练的，能力不足。
AI榜单的可信度受到质疑，基准测试的隐患包括数据泄露和作弊。
基准测试的可信度需要提高，竞技场模式和用户投票可以作为参考。
AI模型的选择应该基于实际需求和实践。

❓

延伸问答

Reflection 70B 是什么？

Reflection 70B 是一个开源 AI 模型，自称为世界顶级开源模型，声称在多项基准测试中表现优于其他大模型。

为什么 Reflection 70B 的基准测试成绩受到质疑？

因为第三方测评机构无法复现其基准测试成绩，且有质疑声称其可能是在基础测试集上训练的，能力不足。

基准测试的隐患有哪些？

基准测试的隐患包括数据泄露、作弊和模型可能在训练过程中见过测试集的问题，导致表现结果不真实。

如何提高基准测试的可信度？

可以通过竞技场模式和用户投票等方式来提高基准测试的可信度，确保测试的公正性和客观性。

AI 模型的选择应该基于什么？

AI 模型的选择应该基于实际需求和实践，而不仅仅依赖于基准测试的排名。

Chatbot Arena 是什么？

Chatbot Arena 是一个让匿名 AI 模型相互竞争并由用户投票选出最佳模型的基准测试平台。

🏷️