“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
💡
原文中文,约3200字,阅读约需8分钟。
📝
内容提要
开源模型Reflection被指控造假,CEO发文道歉但未承认,称正在调查。第三方测试无法复现超越其他模型的宣称。模型被质疑套壳Claude,相关证据表明输出一致且过滤“Claude”一词。模型供应商回应称未套壳,正在整理证据。托管平台CTO讲述了与Reflection合作的细节。测试成绩问题反映了测试基准的不足。英伟达科学家表示只相信独立第三方测评。
🎯
关键要点
- 开源模型Reflection被指控造假,CEO发文道歉但未承认,称正在调查。
- 第三方测试无法复现Reflection超越其他模型的宣称,成绩大打折扣。
- 模型被质疑套壳Claude,相关证据表明输出一致且过滤“Claude”一词。
- Reflection的JSON文件显示是Llama 3而非3.1,官方解释称HF上的版本有问题。
- 模型供应商Glaive AI创始人表示未套壳任何模型,正在整理证据。
- 托管平台CTO讲述与Reflection合作的细节,反映出测试成绩与宣传不符。
- 英伟达科学家指出现有测试基准存在不足,呼吁使用独立第三方测评。
- 评论区有人质疑第三方评估的可信度,认为可能需要更好的测评方式。
➡️