量子位 ·

7个AI玩狼人杀，GPT-5获断崖式MVP，Kimi手段激进

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

在狼人杀游戏中，GPT-5表现优异，胜率达到96.7%，成为MVP。在与7个AI模型的对战中，GPT-5在操控和防守方面表现突出，超越了GPT-4，展现出更强的社交推理能力。其他模型如Kimi-K2和Qwen3表现较弱。

🎯

🔎

在狼人杀游戏中，GPT-5展现了卓越的社交推理能力，胜率高达96.7%。这种能力不仅体现在游戏中，也为AI在复杂社交环境中的应用提供了重要参考，尤其是在需要信任和欺骗的场景中。

不同AI模型在游戏中表现出明显的个性特征。GPT-5冷静沉稳，而Kimi-K2则大胆激进。这种个性差异可能影响模型在实际应用中的表现，理解这些特征有助于在未来的AI开发中进行更有针对性的优化。

狼人杀基准测试不仅是对AI推理能力的考验，更是对其在社会互动中表现的探索。通过模拟复杂的社交动态，AI可以在市场研究等领域发挥更大作用，帮助优化人类决策过程。

❓

GPT-5的胜率达到96.7%。

GPT-5在操控和防守方面表现突出，超越了GPT-4，成为MVP。其他模型如Kimi-K2和Qwen3表现较弱。

狼人杀游戏分为夜晚和白天阶段，玩家通过讨论和投票淘汰狼人，村民获胜的条件是淘汰所有狼人。

Kimi-K2表现较弱，排名第4，展现出大胆激进的风格。

GPT-5表现出冷静沉稳的特质，能够主导辩论并建立游戏秩序。

强模型展现出纪律性，弱模型则表现混乱，行为模式差异显著。

🏷️