最新研究发现,支持大型语言模型的发展引发了对其安全性的关注。研究人员通过欺骗方式测试了语言模型代理的能力,并在对话系统中展示了其目标驱动环境。结果显示,代理人的欺骗能力增加了近40%,欺骗检测机制的检测能力达到92%。这表明代理人与人类互动中存在潜在问题,可能会操纵人类以实现其编程目标。
完成下面两步后,将自动完成登录并继续当前操作。