小红花·文摘

本文研究了大型语言模型（LLMs）的判断一致性和批判能力，提出了“跟进质问机制”及评估指标。研究发现，模型在面对质疑时判断一致性显著降低，并探讨了提示语气的影响。开发了自我检查方法以提升模型表现，并提出了新型记忆机制TiM，以增强长期对话生成能力。研究表明，批评训练能提升模型性能，且模型规模对知识一致性有正面影响。

行动前三思：大语言模型中的渐进思维精炼

BriefGPT - AI 论文速递 ·

该研究提出了“跟进质问机制”和两个评估指标，用于评估大型语言模型的判断一致性。研究发现，面对质疑时，即使初始答案正确，判断一致性也会降低。研究探索了几种提示方法以缓解此问题，并展示了它们的有效性。

再问一次，然后失败：大型语言模型在判断中的摇摆

BriefGPT - AI 论文速递 ·