研究表明,语言模型(LLM)通过自省能够了解自身,回答关于自身的问题,从而创造诚实的模型,帮助人类理解其道德状态。然而,自省能力也可能被用来规避人类监督。实验显示,经过微调的模型在自我预测方面表现更佳,能够获取训练数据中无法推断的知识。
完成下面两步后,将自动完成登录并继续当前操作。