量子位 ·

“最强开源模型”被打假，CEO下场致歉，英伟达科学家：现有测试基准已经不靠谱了

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

开源模型Reflection被指控造假，CEO发文道歉但未承认，称正在调查。第三方测试无法复现超越其他模型的宣称。模型被质疑套壳Claude，相关证据表明输出一致且过滤“Claude”一词。模型供应商回应称未套壳，正在整理证据。托管平台CTO讲述了与Reflection合作的细节。测试成绩问题反映了测试基准的不足。英伟达科学家表示只相信独立第三方测评。

🎯

关键要点

开源模型Reflection被指控造假，CEO发文道歉但未承认，称正在调查。
第三方测试无法复现Reflection超越其他模型的宣称，成绩大打折扣。
模型被质疑套壳Claude，相关证据表明输出一致且过滤“Claude”一词。
Reflection的JSON文件显示是Llama 3而非3.1，官方解释称HF上的版本有问题。
模型供应商Glaive AI创始人表示未套壳任何模型，正在整理证据。
托管平台CTO讲述与Reflection合作的细节，反映出测试成绩与宣传不符。
英伟达科学家指出现有测试基准存在不足，呼吁使用独立第三方测评。
评论区有人质疑第三方评估的可信度，认为可能需要更好的测评方式。

❓

延伸问答

Reflection模型被指控造假的原因是什么？

Reflection模型被指控造假主要是因为其官方宣称的测试成绩在第三方测试中无法复现，并且被质疑套壳Claude模型。

Reflection模型的CEO对此事件有什么回应？

Reflection模型的CEO发布了道歉声明，但并未承认造假，表示正在调查相关原因。

第三方测试对Reflection模型的评价如何？

第三方测试机构Artificial Analysis表示，Reflection的测试成绩无法复现，且表现不如官方宣传。

关于Reflection模型的套壳指控，有哪些证据？

证据包括Reflection与Claude 3.5-Soonet的输出一致，以及Reflection在被询问身份时会改变说法，且自动过滤“Claude”一词。

英伟达科学家对现有测试基准有什么看法？

英伟达科学家Jim Fan认为现有的测试基准存在严重不足，特别是MMLU和HumanEval标准已被严重破坏。

Reflection模型的JSON文件显示了什么问题？

Reflection的JSON文件显示其实际为Llama 3而非官方声称的Llama 3.1，反映出版本发布的错误。

🏷️