量子位 ·

卡帕西大模型横评方法太好玩！四大AI匿名参赛评分，最强出乎意料

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

卡帕西推出了“大模型议会”web app，多个大模型通过OpenRouter共同回答问题并互相评分，最终由主席模型给出统一答案。评估结果显示，GPT-5.1最强，Claude最弱，模型间愿意承认不足。这种多模型集成可能成为未来LLM产品的突破点。

🎯

🔎

卡帕西的‘大模型议会’展示了多模型协作的潜力。通过匿名互评，模型能够更客观地评估彼此的表现，这种方法可能为未来的AI评估标准提供新的思路。尤其是在自动化基准测试方面，模型自评的方式或许能提高评估的效率和准确性。

在此次评估中，模型们愿意承认自己的不足，显示出较少的偏见。这种自我认知能力不仅有助于提升模型的可靠性，也为开发更具适应性的AI系统提供了参考。未来，如何利用这种特性来优化模型性能，将是一个值得关注的方向。

通过‘大模型议会’，用户可以直观地看到不同模型在同一问题上的回答和评分。这种透明度不仅增强了用户对AI的信任感，也为用户提供了更丰富的信息，帮助他们做出更明智的决策。未来，类似的应用可能会在教育和咨询等领域得到广泛应用。

❓

大模型议会通过OpenRouter调用多个大模型同时回答问题，模型互相评分，最后由主席模型汇总给出统一答案。

评估结果显示，GPT-5.1被认为是最强模型。

大模型在匿名的情况下互相评估其他模型的回答质量，并给出评分和理由。

卡帕西认为多模型集成可能成为未来LLM产品的突破点，具有巨大的可探索空间。

Claude被认为是最弱模型，其答案过于简略。

卡帕西认为GPT-5.1内容丰富但结构不够紧凑。

🏷️