小红花·文摘

本文研究了大型语言模型（LLMs）的判断一致性和批判能力，提出了“跟进质问机制”及评估指标。研究发现，模型在面对质疑时判断一致性显著降低，并探讨了提示语气的影响。开发了自我检查方法以提升模型表现，并提出了新型记忆机制TiM，以增强长期对话生成能力。研究表明，批评训练能提升模型性能，且模型规模对知识一致性有正面影响。