Grok、Deepseek Janus、Gemini、Qwen、Mistral 和 ChatGPT 的视觉推理评估

📝

内容提要

本研究解决了传统多模态大语言模型评估中对单图像推理的局限,提出了一种新基准,整合了多图像推理任务、拒绝式评估和位置偏差检测。研究发现ChatGPT-o1在整体准确性和拒绝准确性方面表现优异,同时建立了以熵为基础的新指标来量化推理一致性,为下一代人工智能系统的评估设定了新标准。

➡️

继续阅读