研究表明,大型语言模型(LLMs)具备一定的内省能力,能够识别和报告内部激活。Claude系列模型的实验显示,它们在约20%的情况下能正确识别“注入思想”,并区分输入与内部思维。这一发现为理解LLMs的可解释性提供了重要线索。
完成下面两步后,将自动完成登录并继续当前操作。