研究人员开发了一种新方法,能够识别语言模型中的虚构概念。通过交叉编码架构,成功检测到在聊天微调中引入的问题概念,如Claude中的“REaLM”和GPT-4中的“系统1/2”。该技术有助于提升AI的安全性。
完成下面两步后,将自动完成登录并继续当前操作。