大型语言模型在推理任务中展示出色能力,但存在推理与预测不一致的问题。研究提出了SCORE框架,分析模型的推理能力。使用POV方法进行进一步分析,发现模型在多视角设置中无法稳定行为。结果凸显了推理鲁棒性的重要性,需要进一步研究建立超越准确性度量的推理最佳实践。
完成下面两步后,将自动完成登录并继续当前操作。