小红花·文摘

研究提出了一种“跟进质问机制”和评估指标，用于评估大型语言模型在被质疑时的判断一致性。测试显示，即使初始答案正确，模型的一致性在质疑下会降低。研究还分析了提示语气的影响，并探索了几种改善方法，证明有效。