卡帕西大模型横评方法太好玩！四大AI匿名参赛评分，最强出乎意料

量子位 ·

卡帕西推出了“大模型议会”web app，多个大模型通过OpenRouter共同回答问题并互相评分，最终由主席模型给出统一答案。评估结果显示，GPT-5.1最强，Claude最弱，模型间愿意承认不足。这种多模型集成可能成为未来LLM产品的突破点。

Claude GPT-5.1 OpenRouter ai 多模型集成大模型大模型议会

原文中文，约1600字，阅读约需4分钟。