研究人员开发了一种新方法,能够识别语言模型中的虚构概念。通过交叉编码架构,成功检测到在聊天微调中引入的问题概念,如Claude中的“REaLM”和GPT-4中的“系统1/2”。该技术有助于提升AI的安全性。
人工智能作为探索工具,研究人类和大型语言模型在组合新概念和虚构概念能力方面的最近工作,证明后者在解决此任务时可能与人类假设的方式完全不同,但对智能研究同样具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。