量子位 ·

GPT-4o mini排名雪崩，大模型竞技场规则更新，奥特曼刷分小技巧无效了

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

由于规则更新优先考虑解决问题的能力而非风格，GPT-4o mini 和 Musk 的 Grok-2 系列排名下降。Claude 系列和 Llama-3.1-405b 排名上升。Lmsys 引入了新的算法来控制答案长度和格式等因素。风格对排名的影响通过数学方式进行控制，但存在局限性。调整后的排名更符合一些用户的主观印象。大型模型公司之间的竞争推动了进步。

🎯

关键要点

大模型竞技场规则更新，GPT-4o mini排名显著下降，跌出前10。
新榜单对AI回答的长度和风格等特征做了降权处理，确保分数反映模型真正解决问题的能力。
奥特曼的GPT-4o mini和马斯克的Grok-2系列排名下降，Claude系列和Llama-3.1-405b大模型分数上涨。
Lmsys引入新算法控制答案长度和格式等因素，旨在更准确地评估模型能力。
通过数学方法分析模型得分的内容和风格贡献，尝试消除风格对评分的影响。
研究表明，人类对排版漂亮和详细的AI回答存在偏好性。
调整后的困难任务榜单更符合用户的主观印象，推动了整个领域的进步。

🏷️

继续阅读

预测：到2030年，美国和欧洲将拥有22000套视频远程信息处理系统
Berg Insight的报告指出，视频远程信息处理在商用车领域迅速发展，北美市场规模是欧洲的三倍，预计到2025年将安装760万套系统。主要参与者包括S...
KernelEvolve：Meta的排名工程师代理如何优化AI基础设施
KernelEvolve是一个自主AI系统，通过优化内核提升广告模型推理效率60%。它自动生成适用于多种硬件的生产级内核，将优化时间从几周缩短至几小时，改...
系统规则的乏味与本地化敏感性的愉悦
马尔钦·维哈里讨论了1997年ClarisWorks中的对话框设计，强调系统规则与个性化设计之间的平衡。他认为，简洁的选项如“现在/稍后/从不”比“立即注...
上市首日大涨111%！智谱MiniMax之后，德适交出大模型商业化最硬核答卷
德适生物科技在港交所上市首日大涨111%，成为首家医学影像AI大模型公司。其iMedImage模型支持多种影像检测，解决传统AI医学影像的痛点，毛利率高达...
中国最强编程模型来了！阿里Qwen3.6-Plus性能直逼Claude，国产大模型杀入决赛圈
阿里发布了Qwen3.6-Plus编程模型，性能接近Claude，具备强大的编程和智能体能力。该模型支持Vibe Coding和多模态理解，能够快速生成复...
豆包大模型日均Token使用量超120万亿，Seedance 2.0 API开启公测
火山引擎于4月2日宣布Seedance 2.0 API进入企业用户公测，提供版权与肖像安全保障。豆包大模型日均Token使用量已超过120万亿，主要受AI...

GPT-4o mini排名雪崩，大模型竞技场规则更新，奥特曼刷分小技巧无效了

内容提要

关键要点

标签

继续阅读