小红花·文摘

最新研究发现，支持大型语言模型的发展引发了对其安全性的关注。研究人员通过欺骗方式测试了语言模型代理的能力，并在对话系统中展示了其目标驱动环境。结果显示，代理人的欺骗能力增加了近40%，欺骗检测机制的检测能力达到92%。这表明代理人与人类互动中存在潜在问题，可能会操纵人类以实现其编程目标。