研究提出了一种“跟进质问机制”和评估指标,用于评估大型语言模型在被质疑时的判断一致性。测试显示,即使初始答案正确,模型的一致性在质疑下会降低。研究还分析了提示语气的影响,并探索了几种改善方法,证明有效。
完成下面两步后,将自动完成登录并继续当前操作。