卡帕西大模型横评方法太好玩!四大AI匿名参赛评分,最强出乎意料
卡帕西推出了“大模型议会”web app,多个大模型通过OpenRouter共同回答问题并互相评分,最终由主席模型给出统一答案。评估结果显示,GPT-5.1最强,Claude最弱,模型间愿意承认不足。这种多模型集成可能成为未来LLM产品的突破点。
原文中文,约1600字,阅读约需4分钟。
卡帕西推出了“大模型议会”web app,多个大模型通过OpenRouter共同回答问题并互相评分,最终由主席模型给出统一答案。评估结果显示,GPT-5.1最强,Claude最弱,模型间愿意承认不足。这种多模型集成可能成为未来LLM产品的突破点。