本研究解决了传统多模态大语言模型评估中对单图像推理的局限,提出了一种新基准,整合了多图像推理任务、拒绝式评估和位置偏差检测。研究发现ChatGPT-o1在整体准确性和拒绝准确性方面表现优异,同时建立了以熵为基础的新指标来量化推理一致性,为下一代人工智能系统的评估设定了新标准。
完成下面两步后,将自动完成登录并继续当前操作。