GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
由于规则更新优先考虑解决问题的能力而非风格,GPT-4o mini 和 Musk 的 Grok-2 系列排名下降。Claude 系列和 Llama-3.1-405b 排名上升。Lmsys 引入了新的算法来控制答案长度和格式等因素。风格对排名的影响通过数学方式进行控制,但存在局限性。调整后的排名更符合一些用户的主观印象。大型模型公司之间的竞争推动了进步。
🎯
关键要点
-
大模型竞技场规则更新,GPT-4o mini排名显著下降,跌出前10。
-
新榜单对AI回答的长度和风格等特征做了降权处理,确保分数反映模型真正解决问题的能力。
-
奥特曼的GPT-4o mini和马斯克的Grok-2系列排名下降,Claude系列和Llama-3.1-405b大模型分数上涨。
-
Lmsys引入新算法控制答案长度和格式等因素,旨在更准确地评估模型能力。
-
通过数学方法分析模型得分的内容和风格贡献,尝试消除风格对评分的影响。
-
研究表明,人类对排版漂亮和详细的AI回答存在偏好性。
-
调整后的困难任务榜单更符合用户的主观印象,推动了整个领域的进步。
➡️