量子位 ·

马斯克Grok-4碾压所有大模型！“比所有博士聪明”，AIME25拿满分

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

马斯克发布的Grok-4模型在“人类最后考试”中首次突破50%准确率，声称超越所有博士生。其训练量显著增加，工具整合后智能提升，展现出强大的推理和编程能力。未来将推出多模态Agent和视频生成模型。

🎯

🔎

Grok-4的训练量是前两代模型的显著提升，达到Grok-2的100倍和Grok-3的10倍。这种大规模的训练使其在推理和编程能力上表现出色，能够完成复杂任务。这一优势不仅提升了模型的准确性，也为未来的多模态应用奠定了基础。

Grok-4的发布标志着多模态Agent和视频生成模型的即将到来。这些新功能将使Grok-4在处理不同类型的数据和任务时更加灵活，可能会在教育、娱乐和医疗等多个领域产生深远影响。用户应关注这些新功能的实际应用场景。

Grok-4在多个基准测试中表现优异，尤其是在编程和药物发现领域。其在Live Coding Bench测试中几乎满分，显示出其在实际应用中的潜力。未来，Grok-4可能会在生物医疗和游戏开发等行业中发挥重要作用，值得关注其后续发展。

❓

Grok-4模型在“人类最后考试”中首次突破50%准确率。

Grok-4的训练量是Grok-2的100倍、Grok-3的10倍。

Grok-4在AIME25测试中得分100%。

未来将推出多模态Agent和视频生成模型。

Grok-4在Live Coding Bench编程测试中几乎满分。

Grok-4通过在训练中原生融入工具，提升了智能水平。

🏷️