量子位 ·

战报：马斯克Grok4笑傲AI象棋大赛，DeepSeek没干过o4-mini，Kimi K2被喊冤

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

马斯克的Grok 4在首届Kaggle AI国际象棋比赛中表现优异，领先Gemini 2.5 Pro和OpenAI的o4-mini进入半决赛。网友认为Grok 4在战术和速度上超越其他模型，国际象棋成为测试AI决策能力的理想场景。

🎯

🔎

此次AI国际象棋比赛不仅是技术的较量，更是对AI决策能力的深度测试。国际象棋的复杂性和明确规则使其成为评估AI涌现能力的理想场景，能够反映出模型在战术和策略上的真实水平。

Grok 4在比赛中表现出色，网友普遍认为其在战术策略和速度上超越其他模型。这一结果不仅展示了Grok 4的强大能力，也引发了对AI模型训练方式的讨论，尤其是在涌现能力方面的表现。

尽管DeepSeek R1和Gemini 2.5 Pro等模型也展现了实力，但在与Grok 4的对抗中显得力不从心。Kimi K2的表现引发争议，部分网友认为其非推理模型的特性限制了其发挥，这提示我们在评估AI时需考虑模型的设计和应用场景。

❓

Grok 4在比赛中表现优异，领先其他模型，成为最佳表现者。

比赛旨在测试AI的决策能力，特别是其涌现能力。

参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2、Gemini 2.5 Pro等。

国际象棋规则明确且复杂，是测试AI决策能力的理想场景。

比赛前Gemini 2.5 Pro最受欢迎，但比赛后Grok 4获得了压倒性优势。

Kimi K2表现不佳，因多次走非法棋步而被o3弃权获胜。

🏷️