麻省理工学院的研究人员开发了一种机器学习模型,能够自动生成多样化的提示,以训练聊天机器人避免产生仇恨或有害的输出。该模型通过激发好奇心生成新颖提示,有效识别和引导不当回应,超越传统人工测试方法,提高了安全性并减少了人工验证需求。
完成下面两步后,将自动完成登录并继续当前操作。