硕鼠的博客站 ·

开源巨头Meta深陷Llama 4作弊风波：高分低能引爆质疑，测试数据竟混入训练集，AI圈还能信任谁？

💡 原文中文，约5800字，阅读约需14分钟。

📝

内容提要

Meta的Llama 4因被指控存在开源版本与测试版本不一致及数据作弊而引发争议。Meta否认这些指控，称问题源于快速发布导致的质量不稳定，并计划在未来几天发布稳定版本以验证其真实性。

🎯

🔎

Meta的Llama 4面临的作弊指控不仅涉及开源版本与测试版本的不一致，更有将测试数据混入训练数据的严重问题。这种行为若属实，将对Meta的声誉造成重大打击，甚至可能引发法律后果。

Meta承认Llama 4的质量不稳定源于快速发布的压力。这一策略虽然能迅速推出产品，但也可能导致技术缺陷和信任危机，未来的模型发布需更加谨慎，以避免类似问题再次发生。

Meta计划在未来几天发布稳定版本以验证Llama 4的真实性。外部专家和用户的独立测试将是检验其真实性的关键，若新版本无法达到预期性能，将进一步加深外界对其作弊指控的怀疑。

❓

Llama 4被指控因开源版本与测试版本不一致，以及将测试数据混入训练数据中，导致其评测成绩不可信。

Meta否认作弊指控，称问题源于快速发布导致的质量不稳定，并计划发布稳定版本以验证模型的真实性。

Llama 4的编程效果被质疑是因为其在实际使用中表现不如其他主流模型，且评测结果与实际能力不符。

Meta计划在未来几天发布一个稳定版本，并承诺增加算力以加快模型更新，避免类似问题再次发生。

外部专家指出Llama 4在基准测试中表现过度优化，缺乏真正的技术进步，甚至可能不如前一版本Llama 3.3。

Meta在发布Llama 4时没有发布技术论文或白皮书，这引发了外界对其透明度的质疑。

🏷️