GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

由于规则更新优先考虑解决问题的能力而非风格,GPT-4o mini 和 Musk 的 Grok-2 系列排名下降。Claude 系列和 Llama-3.1-405b 排名上升。Lmsys 引入了新的算法来控制答案长度和格式等因素。风格对排名的影响通过数学方式进行控制,但存在局限性。调整后的排名更符合一些用户的主观印象。大型模型公司之间的竞争推动了进步。

🎯

关键要点

  • 大模型竞技场规则更新,GPT-4o mini排名显著下降,跌出前10。

  • 新榜单对AI回答的长度和风格等特征做了降权处理,确保分数反映模型真正解决问题的能力。

  • 奥特曼的GPT-4o mini和马斯克的Grok-2系列排名下降,Claude系列和Llama-3.1-405b大模型分数上涨。

  • Lmsys引入新算法控制答案长度和格式等因素,旨在更准确地评估模型能力。

  • 通过数学方法分析模型得分的内容和风格贡献,尝试消除风格对评分的影响。

  • 研究表明,人类对排版漂亮和详细的AI回答存在偏好性。

  • 调整后的困难任务榜单更符合用户的主观印象,推动了整个领域的进步。

➡️

继续阅读