小红花·文摘

大型语言模型在推理任务中展示出色能力，但存在推理与预测不一致的问题。研究提出了SCORE框架，分析模型的推理能力。使用POV方法进行进一步分析，发现模型在多视角设置中无法稳定行为。结果凸显了推理鲁棒性的重要性，需要进一步研究建立超越准确性度量的推理最佳实践。