小红花·文摘

研究探讨语言模型通过内省获取自我知识，以解决模型可解释性不足的问题。微调模型预测自身在假设场景下的行为，发现具备内省能力的模型能更准确预测自身行为。这可能提升模型在伦理方面的理解和应用，但在复杂任务上仍有挑战。