MIT研究人员提出了一种新方法,通过比较目标模型与类似模型的回答,识别自信但错误的响应。他们的总不确定性度量(TU)结合自我一致性和模型间不一致性,能更有效地识别不可靠的预测,尤其在唯一正确答案的任务中表现突出。
完成下面两步后,将自动完成登录并继续当前操作。