马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

马斯克发布的Grok 4.1在大模型竞技场中表现优异,思考模式和非思考模式分别排名第一和第二。该模型在情感、创造性和互动性方面显著提升,强化学习算法得到改进,减少了信息检索中的事实性幻觉。Grok 4.1现已向所有用户开放。

🎯

关键要点

  • 马斯克发布Grok 4.1,表现优异,思考模式和非思考模式分别排名第一和第二。
  • Grok 4.1思考模式以1483的Elo分数稳居榜首,非思考模式以1465分拿下第二名。
  • Grok 4在排行榜上仅排第33位,Grok 4.1在短时间内实现了巨大飞跃。
  • 在专家榜和职业榜上,Grok 4.1同样表现出色,多个领域均取得第一。
  • Grok 4.1在EQ-Bench情商测试中表现优异,超过了Kimi K2。
  • Grok 4.1在创造性、情感性和互动性方面有显著提升,模型更加善于捕捉细微意图。
  • 团队通过强化学习算法的改进,将RLHF推向前所未有的高度。
  • Grok 4.1特别加强了快速回复模式,减少了输出标记数。
  • 在后训练阶段,Grok 4.1重点改善了幻觉问题,降低了事实性幻觉的发生率。
  • Grok 4.1已在多个平台向所有用户开放,默认以自动模式推出。

延伸问答

Grok 4.1的思考模式和非思考模式的排名如何?

Grok 4.1的思考模式以1483的Elo分数排名第一,非思考模式以1465分排名第二。

Grok 4.1在情商测试中的表现如何?

Grok 4.1在EQ-Bench情商测试中表现优异,超过了Kimi K2。

Grok 4.1与之前版本相比有哪些显著改进?

Grok 4.1在创造性、情感性和互动性方面有显著提升,并改善了幻觉问题。

Grok 4.1是如何减少事实性幻觉的?

Grok 4.1在后训练阶段专注于减少信息检索提示中的事实性幻觉,显著降低了发生率。

Grok 4.1的快速回复模式有什么特点?

Grok 4.1特别加强了快速回复模式,关闭推理功能后,输出标记数从约2300个减少到850个。

Grok 4.1目前在哪些平台上可用?

Grok 4.1已在grok.com、X平台以及iOS和Android应用上向所有用户开放。

➡️

继续阅读