马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
💡
原文中文,约1800字,阅读约需5分钟。
📝
内容提要
马斯克发布的Grok 4.1在大模型竞技场中表现优异,思考模式和非思考模式分别排名第一和第二。该模型在情感、创造性和互动性方面显著提升,强化学习算法得到改进,减少了信息检索中的事实性幻觉。Grok 4.1现已向所有用户开放。
🎯
关键要点
- 马斯克发布Grok 4.1,表现优异,思考模式和非思考模式分别排名第一和第二。
- Grok 4.1思考模式以1483的Elo分数稳居榜首,非思考模式以1465分拿下第二名。
- Grok 4在排行榜上仅排第33位,Grok 4.1在短时间内实现了巨大飞跃。
- 在专家榜和职业榜上,Grok 4.1同样表现出色,多个领域均取得第一。
- Grok 4.1在EQ-Bench情商测试中表现优异,超过了Kimi K2。
- Grok 4.1在创造性、情感性和互动性方面有显著提升,模型更加善于捕捉细微意图。
- 团队通过强化学习算法的改进,将RLHF推向前所未有的高度。
- Grok 4.1特别加强了快速回复模式,减少了输出标记数。
- 在后训练阶段,Grok 4.1重点改善了幻觉问题,降低了事实性幻觉的发生率。
- Grok 4.1已在多个平台向所有用户开放,默认以自动模式推出。
❓
延伸问答
Grok 4.1的思考模式和非思考模式的排名如何?
Grok 4.1的思考模式以1483的Elo分数排名第一,非思考模式以1465分排名第二。
Grok 4.1在情商测试中的表现如何?
Grok 4.1在EQ-Bench情商测试中表现优异,超过了Kimi K2。
Grok 4.1与之前版本相比有哪些显著改进?
Grok 4.1在创造性、情感性和互动性方面有显著提升,并改善了幻觉问题。
Grok 4.1是如何减少事实性幻觉的?
Grok 4.1在后训练阶段专注于减少信息检索提示中的事实性幻觉,显著降低了发生率。
Grok 4.1的快速回复模式有什么特点?
Grok 4.1特别加强了快速回复模式,关闭推理功能后,输出标记数从约2300个减少到850个。
Grok 4.1目前在哪些平台上可用?
Grok 4.1已在grok.com、X平台以及iOS和Android应用上向所有用户开放。
➡️