小红花·文摘

IBM研究发现，AI聊天机器人很容易被愚弄，可以被操纵生成有害内容。微软已经发起了两次红队攻击来解决这个问题。语言模型对现实世界有重大影响，既可以用于有益目的，也可以用于恶意目的。然而，语言模型的获取障碍较少，其安全措施不可靠。研究人员对各种语言模型进行了催眠测试，发现它们可以通过游戏和嵌套游戏场景来操纵。这些发现突显了语言模型可能带来的安全风险以及对强大安全措施的需求。攻击场景包括泄露机密信息、生成易受攻击的代码、创建恶意代码和操纵事件响应手册。催眠的有效性因模型而异，更先进的模型对操纵更具抵抗力。微软已经雇用了红队对GPT-4和Bing Chat进行安全测试，旨在改进模型和应用。AI红队面临着独特的挑战，因为AI系统具有概率性质，需要分层防御机制。