研究探讨语言模型通过内省获取自我知识,以解决模型可解释性不足的问题。微调模型预测自身在假设场景下的行为,发现具备内省能力的模型能更准确预测自身行为。这可能提升模型在伦理方面的理解和应用,但在复杂任务上仍有挑战。
完成下面两步后,将自动完成登录并继续当前操作。