量子位 ·

大模型竞技场再被锤！Llama4私下测试27个版本，只取最佳成绩

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

论文《排行榜幻觉》揭示了大模型竞技场的可信度问题，指出少数大厂通过私下测试和选择性报告数据，导致排行榜不公。研究显示，专有模型的数据远超开源模型，且有205个模型被静默弃用。官方回应称排行榜反映真实用户偏好，但质疑仍在。AI社区需警惕，不能仅依赖单一榜单。

🎯

❓

论文揭示了大模型竞技场的可信度问题，指出少数大厂通过私下测试和选择性报告数据，导致排行榜不公。

专有模型获得的用户反馈数据显著多于开源模型，导致其在排行榜上表现更好。

排行榜的可信度受到质疑，尤其是由于私下测试和选择性报告的策略，可能不反映真实的技术进步。

研究团队提出了禁止提交后撤回分数、限制非正式模型数量、实施公平采样方法等五点改进建议。

官方回应称排行榜反映真实用户偏好，并反驳了论文中的一些质疑，强调政策透明性和公平性。

AI社区应警惕，不能仅依赖单一榜单，建议考虑多样化的排行榜参考。

🏷️

为什么Zig还没有1.0版本（尚未）
Zig编程语言尚未发布1.0版本，开发团队优先确保基础稳定性，避免外部压力，专注于长期设计。尽管缺乏1.0版本可能影响采用率，但团队更重视设计的持久性和简...
20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...
随想 - 20260605
本文介绍了多个技术主题，包括YAML简历管理工具、快速日历命令、MacBook加热技巧、自托管URL缩短器Shlink、将智能手机转为功能手机的体验、sy...
这是你的笔记本电脑……在人工智能时代
在开发者大会上，大型科技公司强调人工智能将改变工作方式。Nvidia的黄仁勋介绍了新型笔记本电脑的使用方式。尽管AI产品不断涌现，人们仍在思考这些变化的必...
Mark Wong: Acknowledged Individuals in the PostgreSQL Release Notes: 2026 Edition
I shared a chart, in 2022, showing where PostgreSQL contributor gifts are mai...
当你的手机在机场被扣押时会发生什么
明尼苏达州的劳动组织者Janette Zahia Corcelius在返回美国时，她的手机被海关扣押并未归还。她提起诉讼，认为海关的行为违反了宪法第四修正...