量子位 ·

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

马斯克发布的Grok 4.1在大模型竞技场中表现优异，思考模式和非思考模式分别排名第一和第二。该模型在情感、创造性和互动性方面显著提升，强化学习算法得到改进，减少了信息检索中的事实性幻觉。Grok 4.1现已向所有用户开放。

🎯

🔎

Grok 4.1在强化学习算法上取得了显著进展，特别是在情感、创造性和互动性方面的提升，使得模型更能理解用户的细微意图。这种技术突破不仅提升了用户体验，也为未来的AI对话系统设定了新的标准。

尽管Grok 4.1在多个榜单上表现优异，但由于投票数较少，当前的排名可能不够稳定。用户在参考这些榜单时，应关注未来的投票变化，以获取更准确的模型表现评估。

Grok 4.1在后训练阶段专注于减少事实性幻觉，显著降低了错误信息的发生率。这一改进对于提升模型的可靠性至关重要，尤其是在信息检索和快速回答场景中，用户应留意模型的输出准确性。

❓

Grok 4.1的思考模式以1483的Elo分数排名第一，非思考模式以1465分排名第二。

Grok 4.1在EQ-Bench情商测试中表现优异，超过了Kimi K2。

Grok 4.1在创造性、情感性和互动性方面有显著提升，并改善了幻觉问题。

Grok 4.1在后训练阶段专注于减少信息检索提示中的事实性幻觉，显著降低了发生率。

Grok 4.1特别加强了快速回复模式，关闭推理功能后，输出标记数从约2300个减少到850个。

Grok 4.1已在grok.com、X平台以及iOS和Android应用上向所有用户开放。

🏷️